V
主页
ECLIPSE:一种资源高效的文本到图像先验模型用于图像生成
发布人
【加群】 一起来刷arxiv,请加vx: pwbot02(请备注:b站arxiv) 【论文标题】 ECLIPSE:一种资源高效的文本到图像先验模型用于图像生成 【论文简述】 本文提出了ECLIPSE,一种新颖的对比学习方法,用于训练文本到图像(T2I)的先验模型。T2I模型,如DALL-E-2,通过将文本信息融入扩散过程,实现了卓越的图像生成效果。然而,这些模型需要大量的计算资源和训练数据。ECLIPSE通过利用预训练的视觉-语言模型(如CLIP)的知识,将这些知识提炼到先验模型中,从而显著减少了参数数量和训练数据需求。实验结果表明,ECLIPSE训练的先验模型在参数量仅为3.3%和训练数据量为2.8%的情况下,性能优于基线模型,并与最先进的大型模型相当。这为实现高效、高性能的T2I生成模型提供了新思路。 【论文链接】 https://arxiv.org/abs/2312.04655
打开封面
下载高清视频
观看高清视频
视频下载器
单张图像到3D的高效生成:基于分摊生成的3D高斯模型
文本到图像一致性模型的有条件控制策略研究
FineControlNet:基于空间对齐文本控制注入的图像生成细粒度文本控制
CVPR'24 | 视觉基础模型大一统?融合CLIP、DINOv2、SAM等,实现分类分割等任务上的SOTA性能
HiFi Tuner:基于扩散模型的高保真度个性化图像生成
面向大型语言模型的有约束文本生成方法
动态3D高斯分布与合成扩散模型:实现文本到4D动画的生成
LivePhoto:基于文本引导运动控制的真实图像动画生成
绝对通俗易懂!6个小时带你啃透四大多模态大模型CLIP BLIP VIT MLLM及对话机器人办公助手!手把手教如何训练多模态大模型!
文本驱动的视频生成模型的动态定制
Talk | 西安电子科技大学曾泽群:CLIP是否有能力做零样本的图像描述生成?
多模态模型CLIP深度讲解
FreeControl:实现任意文本到图像扩散模型的无训练空间控制
基于扩散模型的可控4D引导视频生成
SPiC·E: 为3D扩散模型注入结构先验以实现高级3D编辑
Mosaic-SDF:一种高效的3D形状表示方法,助力大型3D生成模型训练
【LLM前沿】6小时精讲四大多模态大模型CLIP BLIP VIT MLLM及对话机器人办公助手!绝对的通俗易懂的大模型应用教程!
通用视觉基础模型:多任务学习实现高效零样本迁移
DiffiT:基于扩散视觉Transformer的图像生成
【多模态+知识图谱】博士轻松带你从零构建知识图谱!基于知识图谱的六大项目实战—医药问答系统、知识抽取、推荐系统、Neo4j数据库、大模型
文本驱动的三维人脸生成: 从粗略草图到逼真细节
图神经网络何时预训练?从数据生成角度探讨
【共享LLM前沿】假如我从11月1号开始学大模型!9小时学会搭建对话机器人办公助手、大模型预训练微调、四大多模态大模型!
大型语言模型在上下文学习中的可靠性提升:结合监督知识的方法
基于ChatGPT的模板生成方法用于图像分类
基于注意力调整的局部图像编辑方法:MAG-Edit
基于科学图像分析GPT-Vision的生成能力和局限性
面向潜扩散模型的高效量化策略
CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion
UFOGen: 一步高效文本到图像生成模型
CLIP作为RNN:无需训练即可分割无数视觉概念
DiffMorpher:释放扩散模型潜能实现平滑图像变形
FreeInit:弥合视频扩散模型初始化鸿沟以提升生成视频的时间一致性
PATHFINDER:基于树搜索的多步推理路径生成方法
稳定分数蒸馏:高质量三维生成新方法
基于上下文调整的检索增强生成方法
TextGenSHAP:面向长文本的可扩展生成解释方法
【共享LLM前沿】通俗易懂搞懂四大多模态大模型CLIP BLIP VIT MLLM及对话机器人办公助手!大模型预训练微调
人体高斯模型:文本驱动的三维人体生成与高斯密度调控
多模态指令图像生成:Instruct-Imagen模型的创新与应用