动态3D高斯分布与合成扩散模型：实现文本到4D动画的生成

发布人

【加群】 一起来刷arxiv，请加vx: pwbot02(请备注：b站arxiv) 
【论文标题】 动态3D高斯分布与合成扩散模型：实现文本到4D动画的生成
【论文简述】 本文提出了一种名为“Align Your Gaussians”（AYG）的新方法，用于从文本描述生成动态的4D动画。该方法利用动态3D高斯分布和变形场作为4D表示，通过分数蒸馏方法结合文本到图像、文本到视频以及3D感知的多视图扩散模型，实现了文本到4D内容的生成。AYG通过一种新的正则化方法和运动放大技术来稳定优化过程并生成生动的动态4D场景。此外，AYG还引入了一种自回归生成方案，用于生成和组合多个4D序列，以实现更长的生成。这些技术使得AYG能够合成生动的动态场景，超越了以往的工作，并在文本到4D的性能上达到了最先进的水平。由于高斯4D表示，不同的4D动画可以无缝地组合，这在本文中也得到了展示。AYG为动画、模拟和数字内容创作以及合成数据生成开辟了有希望的途径。
【论文链接】 https://arxiv.org/abs/2312.13763

打开封面下载高清视频观看高清视频视频下载器

动态3D高斯分布与合成扩散模型：实现文本到4D动画的生成

融合像素与潜在扩散模型的文本到视频生成方法

生成高质量的长视频：SEINE视频扩散模型

高斯涂抹文本生成三维模型

基于文本到图像扩散模型的文本到视频生成架构研究

基于扩散模型的可控4D引导视频生成

基于扩散模型的文本到图像合成

FineControlNet：基于空间对齐文本控制注入的图像生成细粒度文本控制

ECLIPSE：一种资源高效的文本到图像先验模型用于图像生成

FreeControl：实现任意文本到图像扩散模型的无训练空间控制

无需相机参数的3D高斯散射：COLMAP-Free 3DGS实现稳健的视角合成与姿态估计

基于3D高斯展开的实时少样本视角合成

大规模语言模型在多模态音乐理解与生成中的应用

文本驱动的视频生成模型的动态定制

基于扩散模型的360度全景图像生成任务

HiFi Tuner：基于扩散模型的高保真度个性化图像生成

快速高效文本到图像生成模型

FlowVid：利用不完美光流实现一致性视频到视频合成

面向大型语言模型的有约束文本生成方法

人体高斯模型：文本驱动的三维人体生成与高斯密度调控

基于上下文调整的检索增强生成方法

文本驱动的三维人脸生成: 从粗略草图到逼真细节

UFOGen: 一步高效文本到图像生成模型

开源指令生成：用开源代码提升代码生成模型性能

动物伪装研究: 评估和生成有效的伪装图像和视频

通用视觉基础模型：多任务学习实现高效零样本迁移

文本到图像一致性模型的有条件控制策略研究

基于ChatGPT的模板生成方法用于图像分类

Toward Joint Language Modeling for Speech Units and Text

ReconFusion：基于扩散先验的三维重建

LivePhoto：基于文本引导运动控制的真实图像动画生成

GPT4Motion: 一种基于GPT和Blender的文本到视频生成框架

基于高斯混合掩码的视觉变换器在小数据集上的提升

通过触觉生成视觉场景的研究

基于文本和图像的高质量视频生成技术研究

DeepCache：无需训练加速扩散模型的创新方法

基于文本生成高质量、多样化的3D资产的研究

Amphion：一款开源的音频、音乐和语音生成工具包

深度对于transformer模型合成泛化的促进作用

大规模语言模型结合神经符号模型的生成型神经符号视觉推理

一种基于物理信息纠正的交互扩散模型