UFOGen: 一步高效文本到图像生成模型

发布人

【加群】 一起来刷arxiv，请加vx: pwbot02(请备注：b站arxiv) 
【彩蛋】 可以试试/ask + 你的提问和本篇论文进行交流
【论文标题】 UFOGen: You Forward Once Large Scale Text-to-Image Generation via Diffusion GANs
【论文简述】 论文指出，在将文本提示转化为连贯图像方面，文本到图像扩散模型表现出了显著的能力，然而其推断的计算成本仍然是一个持续的挑战。为了解决这个问题，我们提出了一种新颖的生成模型——UFOGen，专为超快速一步文本到图像合成而设计。与传统方法关注改进采样器或使用蒸馏技术用于扩散模型不同，UFOGen采用了一种混合方法，将扩散模型与GAN目标相结合。利用一种新引入的扩散-GAN目标和使用预训练的扩散模型进行初始化，UFOGen在单步内有效生成基于文本描述的高质量图像方面表现出色。除了传统的文本到图像生成，UFOGen还展示了在应用方面的多样性。值得注意的是，UFOGen是能够实现一步文本到图像生成和多种下游任务的开创性模型之一，在高效生成模型的领域中表示了一个重大的进展。
【引导阅读的问题】 UFOGen如何解决传统方法中文本到图像生成中的计算成本挑战？
【论文链接】 https://arxiv.org/pdf/2311.09257

打开封面下载高清视频观看高清视频视频下载器

UFOGen: 一步高效文本到图像生成模型

单张图像到3D的高效生成：基于分摊生成的3D高斯模型

FreeControl：实现任意文本到图像扩散模型的无训练空间控制

基于文本到图像扩散模型的文本到视频生成架构研究

面向大型语言模型的有约束文本生成方法

DiffiT：基于扩散视觉Transformer的图像生成

动态3D高斯分布与合成扩散模型：实现文本到4D动画的生成

基于3D高斯展开的实时少样本视角合成

Vary: 大型视觉语言模型视觉词汇扩展新方法

ECLIPSE：一种资源高效的文本到图像先验模型用于图像生成

FineControlNet：基于空间对齐文本控制注入的图像生成细粒度文本控制

多模态基础模型研究综述

基于扩散模型的360度全景图像生成任务

PhotoVerse: 个性化文本到图像生成的调谐自由方法

基于上下文调整的检索增强生成方法

基于ChatGPT的模板生成方法用于图像分类

融合像素与潜在扩散模型的文本到视频生成方法

DeepCache：无需训练加速扩散模型的创新方法

基于潜在变量推断的训练链式思维提升语言模型推理能力

基于扩散模型的文本到图像合成

ZipLoRA: Any Subject in Any Style by Effectively Merging LoRAs

无需相机参数的3D高斯散射：COLMAP-Free 3DGS实现稳健的视角合成与姿态估计

快速高效文本到图像生成模型

基于注意力机制的图像与点云匹配方法

面向潜扩散模型的高效量化策略

HiFi Tuner：基于扩散模型的高保真度个性化图像生成

高斯涂抹文本生成三维模型

大规模语言模型在多模态音乐理解与生成中的应用

用视觉语言模型自动生成奖励函数，训练多目标强化学习智能体

Wonder3D: Single Image to 3D using Cross-Domain Diffusion

图像生成美学优化方法研究

LivePhoto：基于文本引导运动控制的真实图像动画生成

GaussianEditor: Swift and Controllable 3D Editing with Gaussian Splatting

基于共享注意力的风格一致图像生成方法

稳定分数蒸馏：高质量三维生成新方法

PixelLLM：通过像素对齐实现视觉语言模型的精确定位

FreeInit：弥合视频扩散模型初始化鸿沟以提升生成视频的时间一致性

人体高斯模型：文本驱动的三维人体生成与高斯密度调控

Linear Transformers with Learnable Kernel Functions are Better In-Context Models

PALP: Prompt Aligned Personalization of Text-to-Image Models

生成高质量的长视频：SEINE视频扩散模型