融合像素与潜在扩散模型的文本到视频生成方法

发布人

论文简述：在这篇名为Show-1: Marrying Pixel and Latent DiffusionModels for Text-to-Video Generation的论文中，作者提出了一种名为Show-1的创新性方法，该方法将像素和潜在差异扩散模型相结合，以实现高效且高质量的文本到视频生成。首先，Show-1使用像素基于的差异扩散模型生成具有强文本视频相关性的低分辨率视频。然后，作者提出了一种创新的专业翻译方法，该方法利用潜在的差异扩散模型对低分辨率视频进行进一步的上采样以提高分辨率。与潜在差异扩散模型相比，Show-1能够产生高质量的精确文本视频对齐的视频；与像素差异扩散模型相比，Show-1更加高效（推理过程中的GPU内存使用量为15G vs 72G）。作者在标准视频生成基准上验证了他们的方法，并将代码和模型权重公开发布在GitHub上的\urlhttps://github.com/showlab/Show-1。这篇论文为文本到视频生成的领域提供了一个重要的参考点，展示了如何将不同的差异扩散模型技术相结合以实现更好的性能。
论文链接： https://arxiv.org/pdf/2309.15818

打开封面下载高清视频观看高清视频视频下载器

融合像素与潜在扩散模型的文本到视频生成方法

VideoLCM：基于视频潜在一致性模型的高效视频合成方法

基于扩散模型的可控4D引导视频生成

FreeInit：弥合视频扩散模型初始化鸿沟以提升生成视频的时间一致性

啊？扩散模型与脉冲神经网络梦幻联动？和图像生成高能耗说再见！

DiffMorpher：释放扩散模型潜能实现平滑图像变形

ECCV'24 7篇工作|3D大场景生成、视频问答自动评估、手写文本生成、虚拟试穿等

动态3D高斯分布与合成扩散模型：实现文本到4D动画的生成

UFOGen: 一步高效文本到图像生成模型

ReconFusion：基于扩散先验的三维重建

【论文精讲】精讲Diffusion Policy扩散策略：基于扩散模型的机器人动作生成策略

基于扩散模型的360度全景图像生成任务

DiffiT：基于扩散视觉Transformer的图像生成

FastDiT-3D：高效生成高质量三维点云的扩散变换器

最新视频生成大模型Vchitect-2.0开源，书生筑梦大模型支持生成20秒长度的视频

单张图像到3D的高效生成：基于分摊生成的3D高斯模型

ECCV'24 最新Oral已开源 ! | 用于 3D大场景生成的金字塔扩散模型，实现无限场景生成与高效数据迁移

Diffusion Model(扩散模型)！2024年公认最通俗易懂的扩散模型来了！3小时入门到精通！建议收藏！（人工智能/深度学习/机器学习/神经网络/AI）

讲座 | 文生图扩散模型中的精确颜色生成——巴塞罗那自治大学LAMP组博士后王凯

基于潜在变量推断的训练链式思维提升语言模型推理能力

基于扩散模型的文本到图像合成

FineControlNet：基于空间对齐文本控制注入的图像生成细粒度文本控制

生成高质量的长视频：SEINE视频扩散模型

FreeControl：实现任意文本到图像扩散模型的无训练空间控制

Alchemist：基于扩散模型的材质属性参数化控制

GAN生成高保真3D几何：渲染每个像素以提升3D GAN质量

大规模3D场景生成全新工作！LT3SD：扩散模型杀疯了！

基于文本到图像扩散模型的文本到视频生成架构研究

面向潜扩散模型的高效量化策略

PhotoVerse: 个性化文本到图像生成的调谐自由方法

高斯涂抹文本生成三维模型

基于SVD首尾帧进行关键帧插值，进行视频生成

文本驱动的视频生成模型的动态定制

文本到图像一致性模型的有条件控制策略研究

SyncDreamer：基于单图像生成3D物体新方法

【代码讲解】十分钟快速上手扩散模型Stable Diffusion

快速高效文本到图像生成模型

一种基于物理信息纠正的交互扩散模型

开源指令生成：用开源代码提升代码生成模型性能

CVPR'24 满分Oral | EscherNet 实现任意视角灵活扩散生成 解锁3D视觉无限可能！

ECLIPSE：一种资源高效的文本到图像先验模型用于图像生成

CVPR'24 满分Oral | EscherNet 实现任意视角灵活扩散生成解锁3D视觉无限可能！