V
主页
FreeInit:弥合视频扩散模型初始化鸿沟以提升生成视频的时间一致性
发布人
【加群】 一起来刷arxiv,请加vx: pwbot02(请备注:b站arxiv) 【论文标题】 FreeInit:弥合视频扩散模型初始化鸿沟以提升生成视频的时间一致性 【论文简述】 本论文提出了一种名为FreeInit的简洁而有效的方法,显著提高了扩散模型生成视频的时间一致性。FreeInit通过在推理过程中迭代优化初始潜在空间的时空低频分量,弥补了训练和推理之间初始化的差距,从而有效提升了生成结果的主题外观和时间一致性。FreeInit不需要额外的训练,不引入可学习参数,并且可以轻松地融入各种视频扩散模型的推理阶段。广泛的实验证明,FreeInit在无需额外训练的情况下,持续提升了多种文本到视频生成模型的表现。本研究深入探究了视频扩散模型的噪声初始化问题,揭示了导致推理质量下降的训练-推理频率域差距,并提出了FreeInit这一无需额外训练或微调的采样策略。 【论文链接】 https://arxiv.org/abs/2312.07537
打开封面
下载高清视频
观看高清视频
视频下载器
ReconFusion:基于扩散先验的三维重建
DiffiT:基于扩散视觉Transformer的图像生成
PeRFlow:分段校正流
基于扩散模型的可控4D引导视频生成
FlowVid:利用不完美光流实现一致性视频到视频合成
融合像素与潜在扩散模型的文本到视频生成方法
一种基于物理信息纠正的交互扩散模型
生成高质量的长视频:SEINE视频扩散模型
DiffMorpher:释放扩散模型潜能实现平滑图像变形
极速高效的生成4K图像的文生图模型Sana,强于超大型扩散模型,可在16GB笔记本上部署
扩散模型+医学|中科院推出残差去噪扩散模型(RDDM),磁共振扩散成像(MRI)去噪扩散模型
我愿称之为【NLP自然语言处理】天花板教程,NLTK/Spacy/可视化/文本分析/HMM隐马尔科夫模型/LSTM情感分析一次学透!!!
HiFi Tuner:基于扩散模型的高保真度个性化图像生成
3.1 从条件概率路径pt(x|x1)和条件向量场ut(x|x1)构造pt和ut【公式推导】
InstaFlow:轨迹校正—知识蒸馏
动态3D高斯分布与合成扩散模型:实现文本到4D动画的生成
FastDiT-3D:高效生成高质量三维点云的扩散变换器
Stable Diffusion 3技术报告详解
VideoLCM:基于视频潜在一致性模型的高效视频合成方法
基于文本到图像扩散模型的文本到视频生成架构研究
谢赛宁惊呼:扩散模型训练方法,一直错了!!!
2.2介绍连续归一化流CNF(Continuous Normalizing Flows)的定义和性质【流flow、向量场v和概率密度p三者之间的关系】
Genmo 开源超高质量视频生成模型Mochi 1 DiT,可商用!
基于连续动力系统的扩散模型降噪网络设计
讲座 | HiDiffusion:高效、无需训练的更高分辨率图像生成框架——旷视研究院高级研究员张慎
北大、北邮和快手开源视频生成模型Pyramid Flow,生成5秒高质量视频只要1分钟,最后附CogVideoX-Fun的简单效果对比
SyncDreamer:基于单图像生成3D物体新方法
VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis
单张图像到3D的高效生成:基于分摊生成的3D高斯模型
Diffusion Models From Scratch 数学原理解释
Pyramidal-Flow整合包,图片生成视频,文字生成视频,AI视频生成,北大和快手联合开源
【睡前小分享】扩散模型流匹配(Flow Matching)真实面目揭秘
SPiC·E: 为3D扩散模型注入结构先验以实现高级3D编辑
文本驱动的视频生成模型的动态定制
使用manim生成科技类动画
2025时间序列必将迎来新一轮爆发!52种创新思路汇总
Neural Network Diffusion
【研2基本功 Score-based Diffusion 1】手搓Diffusion SDE,数学is all you need
Concept Sliders: LoRA Adaptors for Precise Control in Diffusion Models
北大某手联合开源AI视频生成项目Pyramid Flow,文生视频,图生成视频,最长10秒,附带一键整合包