V
主页
UFOGen: 一步高效文本到图像生成模型
发布人
【加群】 一起来刷arxiv,请加vx: pwbot02(请备注:b站arxiv) 【彩蛋】 可以试试/ask + 你的提问和本篇论文进行交流 【论文标题】 UFOGen: You Forward Once Large Scale Text-to-Image Generation via Diffusion GANs 【论文简述】 论文指出,在将文本提示转化为连贯图像方面,文本到图像扩散模型表现出了显著的能力,然而其推断的计算成本仍然是一个持续的挑战。为了解决这个问题,我们提出了一种新颖的生成模型——UFOGen,专为超快速一步文本到图像合成而设计。与传统方法关注改进采样器或使用蒸馏技术用于扩散模型不同,UFOGen采用了一种混合方法,将扩散模型与GAN目标相结合。利用一种新引入的扩散-GAN目标和使用预训练的扩散模型进行初始化,UFOGen在单步内有效生成基于文本描述的高质量图像方面表现出色。除了传统的文本到图像生成,UFOGen还展示了在应用方面的多样性。值得注意的是,UFOGen是能够实现一步文本到图像生成和多种下游任务的开创性模型之一,在高效生成模型的领域中表示了一个重大的进展。 【引导阅读的问题】 UFOGen如何解决传统方法中文本到图像生成中的计算成本挑战? 【论文链接】 https://arxiv.org/pdf/2311.09257
打开封面
下载高清视频
观看高清视频
视频下载器
单张图像到3D的高效生成:基于分摊生成的3D高斯模型
基于文本到图像扩散模型的文本到视频生成架构研究
ECLIPSE:一种资源高效的文本到图像先验模型用于图像生成
快速高效文本到图像生成模型
动态3D高斯分布与合成扩散模型:实现文本到4D动画的生成
基于ChatGPT的模板生成方法用于图像分类
基于文本和图像的高质量视频生成技术研究
FineControlNet:基于空间对齐文本控制注入的图像生成细粒度文本控制
融合像素与潜在扩散模型的文本到视频生成方法
面向大型语言模型的有约束文本生成方法
GPT4Motion: 一种基于GPT和Blender的文本到视频生成框架
DiffMorpher:释放扩散模型潜能实现平滑图像变形
FreeControl:实现任意文本到图像扩散模型的无训练空间控制
PhotoVerse: 个性化文本到图像生成的调谐自由方法
HiFi Tuner:基于扩散模型的高保真度个性化图像生成
稳定分数蒸馏:高质量三维生成新方法
开源指令生成:用开源代码提升代码生成模型性能
基于科学图像分析GPT-Vision的生成能力和局限性
面向潜扩散模型的高效量化策略
FastDiT-3D:高效生成高质量三维点云的扩散变换器
基于扩散模型的可控4D引导视频生成
通用视觉基础模型:多任务学习实现高效零样本迁移
VideoLCM:基于视频潜在一致性模型的高效视频合成方法
FreeInit:弥合视频扩散模型初始化鸿沟以提升生成视频的时间一致性
基于文本生成高质量、多样化的3D资产的研究
图神经网络何时预训练?从数据生成角度探讨
基于上下文调整的检索增强生成方法
动物伪装研究: 评估和生成有效的伪装图像和视频
基于扩散模型的360度全景图像生成任务
基于共享注意力的风格一致图像生成方法
基于扩散模型的文本到图像合成
CityDreamer: 生成逼真多样的无界3D城市布局
大规模语言模型在多模态音乐理解与生成中的应用
生成高质量的长视频:SEINE视频扩散模型
SyncDreamer:基于单图像生成3D物体新方法
System 2 Attention (is something you might need too)
图像生成美学优化方法研究
【AI Drive】用于条件图像生成的注意力归一化
大规模语言模型的数学求解能力的安全性评估
文本到图像一致性模型的有条件控制策略研究