V
主页
基于文本生成高质量、多样化的3D资产的研究
发布人
【加群】 一起来刷arxiv,请加vx: pwbot02(请备注:b站arxiv) 【彩蛋】 可以试试/ask + 你的提问和本篇论文进行交流 【论文标题】 Instant3D: Fast Text-to-3D with Sparse-View Generation and Large Reconstruction Model 【论文简述】 近年来,基于扩散模型的文本到3D方法取得了显著进展。然而,现有方法要么依赖基于分数精馏的优化,导致推理速度慢、多样性低和Janus问题,要么是前馈方法,由于3D训练数据稀缺而生成低质量的结果。本文提出了一种新的方法,即Instant3D,以前馈方式从文本提示中生成高质量和多样化的3D资产。我们采用了两阶段的范式,首先利用经过微调的2D文本到图像扩散模型一次性生成一组稀疏但结构一致的四个视图,然后使用基于Transformer的稀疏视图重构器直接回归生成的图像到NeRF。通过大量实验证明,我们的方法可以在20秒内生成高质量、多样化和无Janus问题的3D资产,比以前需要1至10小时的基于优化的方法快两个数量级。我们的项目网页:https://jiahao.ai/instant3d/。 【引导阅读的问题】 如何使用前馈方式生成高质量、多样化的3D资产? 【论文链接】 https://arxiv.org/pdf/2311.06214
打开封面
下载高清视频
观看高清视频
视频下载器
ECCV'24 7篇工作|3D大场景生成、视频问答自动评估、手写文本生成、虚拟试穿等
UFOGen: 一步高效文本到图像生成模型
稳定分数蒸馏:高质量三维生成新方法
FineControlNet:基于空间对齐文本控制注入的图像生成细粒度文本控制
基于上下文调整的检索增强生成方法
HiFi Tuner:基于扩散模型的高保真度个性化图像生成
基于扩散模型的文本到图像合成
啊?扩散模型与脉冲神经网络梦幻联动?和图像生成高能耗说再见!
DiffMorpher:释放扩散模型潜能实现平滑图像变形
【生成模型VAE】十分钟跟着博士搞懂变分自编码器原理图解+公式推导+项目实战!pytorch深度学习/Python深度学习/生成图像/GAN/论文解读
基于扩散模型的可控4D引导视频生成
DiffiT:基于扩散视觉Transformer的图像生成
薛定谔桥(Diffusion Schrodinger Bridge)及与生成模型(流匹配Flow Matching、DDPM、SMLD)
FluxMusic: 基于FLUX的高效文本到音乐生成系统
ECCV'24 最新Oral已开源 ! | 用于 3D大场景生成的金字塔扩散模型,实现无限场景生成与高效数据迁移
3D高斯泼溅LCC自动化建模厦门园博苑
Neural Network Diffusion
PhotoVerse: 个性化文本到图像生成的调谐自由方法
图像生成美学优化方法研究
ECLIPSE:一种资源高效的文本到图像先验模型用于图像生成
基于文本和图像的高质量视频生成技术研究
基于扩散模型的360度全景图像生成任务
FlowVid:利用不完美光流实现一致性视频到视频合成
SANeRF-HQ:基于提示的高质量NeRF三维物体分割
图神经网络何时预训练?从数据生成角度探讨
快速高效文本到图像生成模型
文本驱动的三维人脸生成: 从粗略草图到逼真细节
面向大型语言模型的有约束文本生成方法
FreeControl:实现任意文本到图像扩散模型的无训练空间控制
讲座 | 单视图引导的3DGS物体重建——加拿大西蒙菲莎大学GrUVi Lab在读博士母宇轩
GPT4Motion: 一种基于GPT和Blender的文本到视频生成框架
融合像素与潜在扩散模型的文本到视频生成方法
讲座 | 文生图扩散模型中的精确颜色生成——巴塞罗那自治大学LAMP组博士后王凯
Alchemist:基于扩散模型的材质属性参数化控制
基于文本到图像扩散模型的文本到视频生成架构研究
GAN生成高保真3D几何:渲染每个像素以提升3D GAN质量
最新视频生成大模型Vchitect-2.0开源,书生筑梦大模型支持生成20秒长度的视频
大规模3D场景生成全新工作!LT3SD:扩散模型杀疯了!
生成高质量的长视频:SEINE视频扩散模型
基于连续动力系统的扩散模型降噪网络设计