V
主页
文本到图像一致性模型的有条件控制策略研究
发布人
【加群】 一起来刷arxiv,请加vx: pwbot02(请备注:b站arxiv) 【论文标题】 文本到图像一致性模型的有条件控制策略研究 【论文简述】 本论文探讨了在文本到图像一致性模型(CMs)中添加有条件控制的方法。一致性模型作为一种新兴的生成模型,已在高效生成高质量图像方面展现出潜力。然而,如何在预训练的CMs中添加新的有条件控制尚未得到充分研究。本报告提出了三种策略:1) 直接将为扩散模型(DMs)训练的ControlNet应用于CMs,可实现高级语义控制,但在细节和真实感方面表现不佳;2) 使用一致性训练从零开始训练CM的ControlNet,这种方法在控制效果上更优;3) 通过一致性训练训练一个轻量级适配器,实现多个条件的快速迁移。实验结果表明,这些方法在边缘、深度、人体姿态、低分辨率图像和遮罩图像等多种条件下均能有效地实现有条件控制。本研究为CMs的有条件控制提供了新思路,有助于进一步拓展其应用领域。 【论文链接】 https://arxiv.org/abs/2312.06971
打开封面
下载高清视频
观看高清视频
视频下载器
FlowVid:利用不完美光流实现一致性视频到视频合成
FreeControl:实现任意文本到图像扩散模型的无训练空间控制
VideoLCM:基于视频潜在一致性模型的高效视频合成方法
DiffiT:基于扩散视觉Transformer的图像生成
直观理解Vision Transformer(ViT)及Diffusion Models使用扩散模型进行图像合成,
本文与英国牛津大学VGG实验室合作产出,主要目标是探讨当前大规模视觉模型在多大程度上“理解”图像中描绘的3D场景的不同物理属性。
Dimba模型:融合Transformer与Mamba技术,灵活地平衡吞吐量和内存需求,并生成更高质量的图像
基于文本和图像的高质量视频生成技术研究
FineControlNet:基于空间对齐文本控制注入的图像生成细粒度文本控制
UFOGen: 一步高效文本到图像生成模型
FreeInit:弥合视频扩散模型初始化鸿沟以提升生成视频的时间一致性
HiFi Tuner:基于扩散模型的高保真度个性化图像生成
融合像素与潜在扩散模型的文本到视频生成方法
基于注意力调整的局部图像编辑方法:MAG-Edit
一种基于物理信息纠正的交互扩散模型
综述:大模型的可解释性研究
多模态基础模型研究综述
基于多注意力卷积神经网络的细粒度图像识别研究
PhotoVerse: 个性化文本到图像生成的调谐自由方法
基于扩散模型的文本到图像合成
基于注意力机制的图像与点云匹配方法
基于扩散模型的可控4D引导视频生成
单张图像到3D的高效生成:基于分摊生成的3D高斯模型
LivePhoto:基于文本引导运动控制的真实图像动画生成
基于文本到图像扩散模型的文本到视频生成架构研究
基于语言、任务和指标的人工智能模型的一致性分析
验证链减少大型语言模型幻觉问题研究
NeurlPS'24 开源 | 使用VoxSplats 进行即时大规模场景重建,仅用3张 图像就可在20秒内重建百米大场景
ECLIPSE:一种资源高效的文本到图像先验模型用于图像生成
【斯坦福吴恩达】2024公认的最好的扩散模型原理课程-How Diffusion Models Work~
【生成式AI】李宏毅大佬2024新课:【扩散模型-diffusion model 背后的数学原理】内容优质且易懂,看完直接跑通!(含配套资料)
零延迟实时生成游戏拿到2100万美元融资模型代码完整开源
【睡前小分享】扩散模型流匹配(Flow Matching)真实面目揭秘
一张图生成3D和4D场景的开源视频扩散模型
【AI Drive】天津大学副教授张长青:多模态融合的基础问题及算法研究
Alchemist:基于扩散模型的材质属性参数化控制
多模态指令图像生成:Instruct-Imagen模型的创新与应用
讲座 | HiDiffusion:高效、无需训练的更高分辨率图像生成框架——旷视研究院高级研究员张慎
层次规划组合基础模型研究
讲座 | 利用长视频生成模型释放端到端自动驾驶泛化性——理想汽车实习研究员马马恩慧