基于文本生成高质量、多样化的3D资产的研究

发布人

【加群】 一起来刷arxiv，请加vx: pwbot02(请备注：b站arxiv) 
【彩蛋】 可以试试/ask + 你的提问和本篇论文进行交流
【论文标题】 Instant3D: Fast Text-to-3D with Sparse-View Generation and Large Reconstruction Model
【论文简述】 近年来，基于扩散模型的文本到3D方法取得了显著进展。然而，现有方法要么依赖基于分数精馏的优化，导致推理速度慢、多样性低和Janus问题，要么是前馈方法，由于3D训练数据稀缺而生成低质量的结果。本文提出了一种新的方法，即Instant3D，以前馈方式从文本提示中生成高质量和多样化的3D资产。我们采用了两阶段的范式，首先利用经过微调的2D文本到图像扩散模型一次性生成一组稀疏但结构一致的四个视图，然后使用基于Transformer的稀疏视图重构器直接回归生成的图像到NeRF。通过大量实验证明，我们的方法可以在20秒内生成高质量、多样化和无Janus问题的3D资产，比以前需要1至10小时的基于优化的方法快两个数量级。我们的项目网页：https://jiahao.ai/instant3d/。
【引导阅读的问题】 如何使用前馈方式生成高质量、多样化的3D资产？
【论文链接】 https://arxiv.org/pdf/2311.06214

打开封面下载高清视频观看高清视频视频下载器

基于文本生成高质量、多样化的3D资产的研究

ECCV'24 7篇工作|3D大场景生成、视频问答自动评估、手写文本生成、虚拟试穿等

UFOGen: 一步高效文本到图像生成模型

稳定分数蒸馏：高质量三维生成新方法

FineControlNet：基于空间对齐文本控制注入的图像生成细粒度文本控制

基于上下文调整的检索增强生成方法

HiFi Tuner：基于扩散模型的高保真度个性化图像生成

基于扩散模型的文本到图像合成

啊？扩散模型与脉冲神经网络梦幻联动？和图像生成高能耗说再见！

DiffMorpher：释放扩散模型潜能实现平滑图像变形

【生成模型VAE】十分钟跟着博士搞懂变分自编码器原理图解+公式推导+项目实战！pytorch深度学习/Python深度学习/生成图像/GAN/论文解读

基于扩散模型的可控4D引导视频生成

DiffiT：基于扩散视觉Transformer的图像生成

薛定谔桥（Diffusion Schrodinger Bridge）及与生成模型（流匹配Flow Matching、DDPM、SMLD）

FluxMusic: 基于FLUX的高效文本到音乐生成系统

ECCV'24 最新Oral已开源 ! | 用于 3D大场景生成的金字塔扩散模型，实现无限场景生成与高效数据迁移

3D高斯泼溅LCC自动化建模厦门园博苑

Neural Network Diffusion

PhotoVerse: 个性化文本到图像生成的调谐自由方法

图像生成美学优化方法研究

ECLIPSE：一种资源高效的文本到图像先验模型用于图像生成

基于文本和图像的高质量视频生成技术研究

基于扩散模型的360度全景图像生成任务

FlowVid：利用不完美光流实现一致性视频到视频合成

SANeRF-HQ：基于提示的高质量NeRF三维物体分割

图神经网络何时预训练？从数据生成角度探讨

快速高效文本到图像生成模型

文本驱动的三维人脸生成: 从粗略草图到逼真细节

面向大型语言模型的有约束文本生成方法

FreeControl：实现任意文本到图像扩散模型的无训练空间控制

讲座 | 单视图引导的3DGS物体重建——加拿大西蒙菲莎大学GrUVi Lab在读博士母宇轩

GPT4Motion: 一种基于GPT和Blender的文本到视频生成框架

融合像素与潜在扩散模型的文本到视频生成方法

讲座 | 文生图扩散模型中的精确颜色生成——巴塞罗那自治大学LAMP组博士后王凯

Alchemist：基于扩散模型的材质属性参数化控制

基于文本到图像扩散模型的文本到视频生成架构研究

GAN生成高保真3D几何：渲染每个像素以提升3D GAN质量

最新视频生成大模型Vchitect-2.0开源，书生筑梦大模型支持生成20秒长度的视频

大规模3D场景生成全新工作！LT3SD：扩散模型杀疯了！

生成高质量的长视频：SEINE视频扩散模型

基于连续动力系统的扩散模型降噪网络设计