FreeInit：弥合视频扩散模型初始化鸿沟以提升生成视频的时间一致性

发布人

【加群】 一起来刷arxiv，请加vx: pwbot02(请备注：b站arxiv) 
【论文标题】 FreeInit：弥合视频扩散模型初始化鸿沟以提升生成视频的时间一致性
【论文简述】 本论文提出了一种名为FreeInit的简洁而有效的方法，显著提高了扩散模型生成视频的时间一致性。FreeInit通过在推理过程中迭代优化初始潜在空间的时空低频分量，弥补了训练和推理之间初始化的差距，从而有效提升了生成结果的主题外观和时间一致性。FreeInit不需要额外的训练，不引入可学习参数，并且可以轻松地融入各种视频扩散模型的推理阶段。广泛的实验证明，FreeInit在无需额外训练的情况下，持续提升了多种文本到视频生成模型的表现。本研究深入探究了视频扩散模型的噪声初始化问题，揭示了导致推理质量下降的训练-推理频率域差距，并提出了FreeInit这一无需额外训练或微调的采样策略。
【论文链接】 https://arxiv.org/abs/2312.07537

打开封面下载高清视频观看高清视频视频下载器

FreeInit：弥合视频扩散模型初始化鸿沟以提升生成视频的时间一致性

ReconFusion：基于扩散先验的三维重建

DiffiT：基于扩散视觉Transformer的图像生成

PeRFlow：分段校正流

基于扩散模型的可控4D引导视频生成

FlowVid：利用不完美光流实现一致性视频到视频合成

融合像素与潜在扩散模型的文本到视频生成方法

一种基于物理信息纠正的交互扩散模型

生成高质量的长视频：SEINE视频扩散模型

DiffMorpher：释放扩散模型潜能实现平滑图像变形

极速高效的生成4K图像的文生图模型Sana，强于超大型扩散模型，可在16GB笔记本上部署

扩散模型+医学｜中科院推出残差去噪扩散模型(RDDM)，磁共振扩散成像（MRI)去噪扩散模型

我愿称之为【NLP自然语言处理】天花板教程，NLTK/Spacy/可视化/文本分析/HMM隐马尔科夫模型/LSTM情感分析一次学透！！！

HiFi Tuner：基于扩散模型的高保真度个性化图像生成

3.1 从条件概率路径pt(x|x1)和条件向量场ut(x|x1)构造pt和ut【公式推导】

InstaFlow：轨迹校正—知识蒸馏

动态3D高斯分布与合成扩散模型：实现文本到4D动画的生成

FastDiT-3D：高效生成高质量三维点云的扩散变换器

Stable Diffusion 3技术报告详解

VideoLCM：基于视频潜在一致性模型的高效视频合成方法

基于文本到图像扩散模型的文本到视频生成架构研究

谢赛宁惊呼：扩散模型训练方法,一直错了！！！

2.2介绍连续归一化流CNF（Continuous Normalizing Flows）的定义和性质【流flow、向量场v和概率密度p三者之间的关系】

Genmo 开源超高质量视频生成模型Mochi 1 DiT,可商用！

基于连续动力系统的扩散模型降噪网络设计

讲座 | HiDiffusion：高效、无需训练的更高分辨率图像生成框架——旷视研究院高级研究员张慎

北大、北邮和快手开源视频生成模型Pyramid Flow，生成5秒高质量视频只要1分钟，最后附CogVideoX-Fun的简单效果对比

SyncDreamer：基于单图像生成3D物体新方法

VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis

单张图像到3D的高效生成：基于分摊生成的3D高斯模型

Diffusion Models From Scratch 数学原理解释

Pyramidal-Flow整合包,图片生成视频,文字生成视频,AI视频生成,北大和快手联合开源

【睡前小分享】扩散模型流匹配（Flow Matching）真实面目揭秘

SPiC·E: 为3D扩散模型注入结构先验以实现高级3D编辑

文本驱动的视频生成模型的动态定制

使用manim生成科技类动画

2025时间序列必将迎来新一轮爆发！52种创新思路汇总

Neural Network Diffusion

【研2基本功 Score-based Diffusion 1】手搓Diffusion SDE，数学is all you need

Concept Sliders: LoRA Adaptors for Precise Control in Diffusion Models

北大某手联合开源AI视频生成项目Pyramid Flow，文生视频，图生成视频，最长10秒，附带一键整合包