AAAI2023|清华提出StyleTalk：说话风格可控的One-shot Talking Head Generation

发布人

https://arxiv.org/abs/2301.01081

不同的人用不同的个性化说话风格说话。尽管现有的One-shot Talking Head 方法在嘴唇同步、自然面部表情和稳定的头部运动方面取得了重大进展，但它们仍然无法在最终的Talking Head视频中产生不同的说话风格。为了解决这一问题，我们提出了一种单张图可控说话人脸生成框架。简而言之，我们的目标是从任意参考发言视频中获得一种发言风格，然后驱动One-shot人像以参考发言风格和另一段音频说话。具体来说，我们首先开发了一种风格编码器来提取风格参考视频的动态面部运动模式，然后将其编码为风格代码。随后，我们引入了一种风格可控解码器，以从语音内容和风格代码合成风格化的面部动画。为了将参考说话风格集成到生成的视频中，我们设计了一个风格感知自适应变换器，它使编码的风格代码能够相应地调整前馈层的权重。由于风格感知自适应机制，在解码过程中，参考说话风格可以更好地嵌入到合成视频中。大量实验表明，我们的方法能够仅从一幅肖像图像和一个音频片段中生成具有不同说话风格的Talking Head视频，同时实现真实的视觉效果。

打开封面下载高清视频观看高清视频视频下载器

AAAI2023|清华提出StyleTalk：说话风格可控的One-shot Talking Head Generation

ICCV2023 | MCNET 隐式身份表示条件记忆补偿网络用于talking head video generation

CVPR2022 | 清华&腾讯&港中大提出StyleHEAT：预训练StyleGAN生成高分辨率可编辑talking face

清华&腾讯最新算法Next3D！高质量3D 感知合成，支持3D风格画！

SIGGRAPH 2022 | Text2Human：文本驱动的可控人体图像生成

NeRF卷麻了！华盛顿大学&谷歌提出HumanNeRF！用于人复杂身体运动的自由视点渲染方法

CVPR2022 | UIUC&腾讯&清华提出FENeRF : Face Editing in Neural Radiance Fields

卡通化算法！SIGGRAPH Asia 2022|VToonify 高分辨率视频风格转换

UniColor - 使用 Transformer 进行多模态着色的统一框架 SIGGRAPH Asia 2022

AI控制光照效果！ControlNet 新作 IC-Light 被网友玩出花！

PyTorch手写多头注意力（Multi-Head Self-Attention）-- Self Attention 四重境界 part2（面试常考）

【强推】这绝对是B站2024年人工智能入门的天花板教程！不接受任何反驳，草履虫都能学会！（人工智能|AI|机器学习|深度学习|）

UMCP&清华&北航提出HVTR：虚拟人更进一步！混合体纹理渲染

【神经网络杀疯了！】迎来人工智能新的里程碑！登上了nature神坛：被证明具有泛化能力，能像人类一样思考！

无约束头部姿势估计的 6D 旋转表征 | ICIP 2022

人工智能助力足球比赛！姿态估计、球员检测、跟踪、位置分析全都可行！

南洋理工&南开提出CuDi：曲线蒸馏用于高效可控曝光调整

腾讯联合清华提出MEP，AI与人合作玩游戏 | NeurIPS 2021

CVPR2022 | 全新“舞伴”10秒开始蚌埠住了：AI根据音乐生成的多元舞蹈

草图生成动漫角色！草图实时自动生成插图和 3D 模型（Demo）

一分钟感受计算机视觉的魅力！CVPR 2021 最具创造力的工作！

我在清华五道口分享了哪些关于AI的思考

CVPR2023 | MetaAI最新工作ImageBind，全能AI可学习6种不同模态！

即插即用的高效多尺度注意力机制模块EMA

南洋理工大学提出VideoBooth：基于扩散的图像提示视频生成

[AAAI 2022] 高质量人脸编辑！MOST-GAN：用于解耦解人脸编辑的 3D 可变形 StyleGAN

港中大&浙大&字节新作VolumeGAN：三维感知高保真图像合成算法

【精华30分钟】字节大佬终于把AI Agent讲清楚了！通俗易懂，2024最新内部版，学完即就业！拿走不谢，允许白嫖，学不会我退出IT圈！

又一个GAN！EigenGAN：GAN的层特征学习，老二次元狂喜 | ICCV2021

ICCV 2023： 应用深度学习技术给动漫线稿插帧！

ChatGPT 是如何训练的？

CVPR2022 | MLP模拟tone-mapper或成主流? HDR-NeRF自监督重建高动态神经辐射场

图解何恺明最新一作论文 Masked Autoencoders（MAE）

清华团队开源端到端OCR模型 性能碾压多模态大模型

CVPR2022 | EfficientVIS 高效的视频实例分割

Barbershop：使用分割mask的GAN图像合成 | SIGGRAPH Asia 2021

【从0到1学人工智能】吹爆！2024年B站最好最全的人工智能基础课程，清华大佬带你恶补AI专业知识！—人工智能基础速成 | 机器学习教程 | 深度学习入门

ICML 2021 | 深度学习类别不平衡回归研究

SceneHGN：层次图网络用于细粒度几何的 3D 室内场景生成

英伟达又一个GAN！PoE-GAN，AI绘图细节拉满，支持多模态输入

字节最新成果SemanticStyleGAN：更细粒度控制图像合成和编辑

ICCV 2023：应用深度学习技术给动漫线稿插帧！

清华团队开源端到端OCR模型性能碾压多模态大模型