[AIGC&CG进展] 上海科技大学、Deemos提出DreamFace，仅通过文本控制生成个性化的3D人脸，并可以支持人脸老化、化妆或通过视频进行人脸动画控制

发布人

DreamFace: Progressive Generation of Animatable 3D Faces under Text Guidance

Longwen Zhang, Qiwei Qiu, Hongyang Lin, Qixuan Zhang（上海科技大学 &amp; Deemos）, Cheng Shi（上海科技大学）, Wei Yang（华中科技大学）, Ye Shi, Sibei Yang, Lan Xu, Jingyi Yu（上海科技大学）

项目主页：https://sites.google.com/view/dreamface

Emerging Metaverse applications demand accessible, accurate, and easy-to-use tools for 3D digital human creations in order to depict different cultures and societies as if in the physical world. Recent large-scale vision-language advances pave the way to for novices to conveniently customize 3D content. However, the generated CG-friendly assets still cannot represent the desired facial traits for human characteristics. In this paper, we present DreamFace, a progressive scheme to generate personalized 3D faces under text guidance. It enables layman users to naturally customize 3D facial assets that are compatible with CG pipelines, with desired shapes, textures, and fine-grained animation capabilities. From a text input to describe the facial traits, we first introduce a coarse-to-fine scheme to generate the neutral facial geometry with a unified topology. We employ a selection strategy in the CLIP embedding space, and subsequently optimize both the details displacements and normals using Score Distillation Sampling from generic Latent Diffusion Model. Then, for neutral appearance generation, we introduce a dual-path mechanism, which combines the generic LDM with a novel texture LDM to ensure both the diversity and textural specification in the UV space. We also employ a two-stage optimization to perform SDS in both the latent and image spaces to significantly provides compact priors for fine-grained synthesis. Our generated neutral assets naturally support blendshapes-based facial animations. We further improve the animation ability with personalized deformation characteristics by learning the universal expression prior using the cross-identity hypernetwork. Notably, DreamFace can generate 。。

打开封面下载高清视频观看高清视频视频下载器

[AIGC&CG进展] 上海科技大学、Deemos提出DreamFace，仅通过文本控制生成个性化的3D人脸，并可以支持人脸老化、化妆或通过视频进行人脸动画控制

[NeRF进展，文本转3D，20221228发表]腾讯ARC Lab、PCG，上海科技大学等提出Dream3D，使用文本转形状+CLIP，提升文本转3D效果

[文本转3D进展] 清华、人大等：ProlificDreamer，使用VSD解决过饱和、过平滑、低多样性问题，SDS是VSD的特殊情况，可应用在NeRF生成场景

[NeRF进展，动态NeRF编码与串流] 上海科技大学、NeuDim推出ReRF，通过设计辐射场编码Codec，实现FVV长内容低码率编码与实时传输与播控

[NeRF进展，文本生成3D] Google，Ben、Jonathan提出DreamBooth3D，DreamBooth+DreamFusion，文本生成3D

[AIGC进展，使用shape+文本生成纹理] 特拉维夫大学提出TEXTure，通在已知3D shape情况下，使用文本可生成、编辑和迁移纹理效果

[AIGC进展，文本生成3D模型方向] 华南理工大学提出Fantasia3D，将几何和外观学习进行分离，在转化过程中考虑空域变换的BRDF，提升真实感

[群友工作] 上科大，Deemos等推出Media2Face，语音合成 3D 面部动画的新算法以及多型、多样化的扫描级别语音与3D协同数据集M2M-D

[点云+神经渲染进展] Apple, CMU, UBC提出Pointersect，给定一个点云，在不转换为其他表达的情况下，进行推理光线与表面相交性

[NeRF进展，单目视频重建动态人-物-场景] 新加坡国立大学，腾讯等提出HOSNeRF，使用单目视频动态人-物-场景，LPIPS相比SOTA提升40%以上

[Diffusion进展，文本生成360度体验] Intel提出LDM3D，使用文本生成RGBD图，并将RGBD图渲染为360度三维体验感内容

[NeRF进展，3D形状表达] KAUST和TUM发表3DShape2VecNet，面向扩散生成模型的形状神经场表达，对3D形状编码和生成及多个下游任务非常有效

[Diffusion进展] Google Research Imagen模型，提出一种新的图片生成文字的AIGC框架，更好的生成效果（NeurIPS 2022)

[NeRF进展，动画方向] 东京大学在同年提出与我国CageNeRF类似的NeRF动画控制方法，同步了解别人的想法（ECCV 2022)

[3D人脸采集，偏振光重建方向] 慕尼黑工业大学、Meta，Matthias大神、Justus提出PolFace，使用偏振光在手机上即可采集出高质量3D人脸效果

[Generate AI进展，合成大规模无界3D场景] 南洋理工大学提出SceneDreamer，使用2D图片训练、使用随机噪声生成多样化无界3D场景

[NeRF进展，点云重建] 捷克理工大学提出Tetra-NeRF，使用点云为输入，使用四面体和其德劳内表达进行重建，实现更好的重建性能和效果

[NeRF进展] Oppo, Buffalo, 上科大提出NeuRBF，使用自适应的RBF进行神经场表达，相比INGP, TensoRF等取得更好的渲染效果

[NeRF进展，物体相机] MIT与莱斯大学脑洞大开：ORCa，将有光泽的物体转为神经场相机，将反光的不可见场景建模，可以看到物体看到的而不是相机看到的场景

[NeRF+Diffusion进展，少量输入重建] CMU提出SparseFusion，在最少两个输入视角情况下，可以完成3D一致性高的高质量重建

[NeRF进展，使用事件相机生成高质量NeRF] 马克思普朗克研究院，萨尔大学提出EventNeRF，使用事件相机生成高质量NeRF，低功耗、低数据量、快速重建

[NeRF进展，高精度人头部动作生成] TUM提出NeRSemble，组合变形场和多分辨率3Dhash编码高精度生成人头运动。同时提供多视角高精度运动数据集

[NeRF进展，Avatar实时生成] 苏黎世I联邦理工，普朗克研究所提出InstantAvatar，相比SOTA方法速度提升130倍以上，秒级别训练，实时渲染

[NeRF+Diffusion进展，单图重建3D] 韩国首尔大学提出DITTO-NeRF，使用文字或单图，通过前视角部分3D+迭代扩散填充，生成3D模型

【Stable diffusion】AI生成视频再出王炸！SD文生视频横空出世！极度爆炸的视频生成！真的太实用了，这3个新功能一个比一个炸~（附插件）保姆级教程

[NeRF进展，实时渲染方向]格拉茨科技大学与Meta提出AdaNeRF，通过双网络模型自适应采样实现NeRF的实时渲染（ECCV 2022)

[NeRF进展，鲁棒的动态NeRF] RoDynRF CVPR最终presentation视频，联合预测静态、动态和相机姿态焦点信息，提升动态nerf鲁棒性

[AIGC进展，使用多种因素合成，提升合成控制力] 阿里与蚂蚁金服提出Composer，使用多种因素训练diffusion model，提高合成的组合能力和可控

[NeRF进展，实时渲染方向，四创始大神新作，必看！] Google Research、蒂宾根大学发布MERF，低内存实时NERF渲染，优于InstantNGP

[NeRF进展，人脸动画，褶皱渲染] 华沙工业大学、UBC、微软、Google等提出BlendFields，在少量数据下，结合图形学方法，生成细节表情动画

[NeRF进展，城市建模] 南洋理工大学：CityDreamer，一种unbounded 3D城市设计的组合生成模型，效果超过SceneDreamer

[NeRF进展，快速非刚体NeRF数百倍提升]布伦瑞克工业大学，马克思普朗克计算研究所提出MoNeRF，将非刚体NeRF训练时间提升数百倍，渲染质量更好

[人体3D动画] 清华、哈工大、MPI提出ProxyCap，首个使用2D骨架序列和3D旋转运动数据集，使用单目采集视频实时进行3D人体动作采集

[神经网络驱动3D建模] 特拉维夫大学、芝加哥大学、普渡大学提出GeoCode，一个人类可解释、可修改编辑的3D建模方法，提升对生成模型的操控力

[NeRF进展，深度估计方向，群友推荐] 博洛尼亚大学、Google等提出NeRF监督的深度立体方法，使用NeRF监督更加准确的深度度和视差图，提升超过30%

[NeRF进展，单视频大规模场景重建] KAIST，台大，Meta等发表Progressive LocalRF，使用单视频重建大规模场景NeRF，提升显著

[神经渲染，自动驾驶方向] Waabi，多大，MIT提出UniSim，一种神经sensor模拟器，可以用从录制结果生成真实的close-loop多传感器仿真效果

[Transformer进展，文本生成图片]GoogleAI提出Muse，首次使用Transformer代替Diffusion模型完成文本生成图片，速度快

[NeRF进展，TensoRF+PBR] 浙江大学、UCSD等提出TensoIR，将场景以神经场与密度、法向、光照、材质等信息一起建模，实现高质量建模

[3D数据集，超百万文本标注3D数据集] Objaverse公开发布，近百万文本详细标注的3D数据集可下载，已有数个关联的文本生成3D论文发表，值得关注和实验

[NeRF进展，单图重建] TUM, MCML和牛津大学提出BTS，一个密度场将输入图像的每个位置映射到体密度上，然后从图片采样颜色，可处理被遮挡区域