微软研究院谭旭带来零样本 TTS 模型 NaturalSpeech 3 - 视频下载 Video Downloader

京东 11.11 红包

微软研究院谭旭带来零样本 TTS 模型 NaturalSpeech 3

发布人

【分享人】
谭旭，微软研究院首席研究经理

【分享内容】
- 语音合成背景介绍，以及微软 NatualSpeech 项目介绍
- NaturalSpeech 3 技术解析
- 模型/数据的扩展
- 讨论

【相关资料】

NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models
paper: https://arxiv.org/pdf/2403.03100.pdf
Demo: https://speechresearch.github.io/naturalspeech3/
code: https://huggingface.co/spaces/amphion/naturalspeech3_facodec

【OpenMMLab】公众号回复‘开放麦’即可获取视频课件，微信添加小助手 InternLM 进入导师群沟通

打开封面下载高清视频观看高清视频视频下载器

AI时代数据应用的全链路工厂- Chat2DB

RTMPose 家族史诗级更新！多人、全身一网打尽

书生·浦语大模型全链路开源开放体系

多模态 Agents：用大模型语言模型串联多模态专家

XTuner 微调 LLM：1.8B、多模态、Agent

大模型微调数据构造（补充课程）

LMDeploy 量化部署进阶实践

当大模型遇上心理咨询：基于心理咨询报告的对话重构和评测框架CPsyCoun

MMPretrain代码课

2. 使用 MMDet3D 预训练模型在点云和数据图像上推理

基于 SiliconCloud 平台使用 MindSearch

InternLM+LlamaIndex RAG 实践

生成模型 GAN 与 MMGeneration 实践

MMBench：基于ChatGPT的全方位多模能力评测体系

超大规模视觉通用感知模型-代季峰教授 | AI奇妙夜#6

语义分割与MMSegmentation

目标检测与MMDetection

销冠——卖货主播大模型

Lagent & AgentLego 智能体应用搭建

模型部署与 MMDeploy 实践

【开源项目】F5-TTS 一句话克隆声音，开源TTS，附赠Windows整合包，有兴趣的可以玩玩0.0

业界可用的高性能的姿态估计模型能有多快？ | 社区开放麦#46

清华提出首个面向无监督和半监督新意图发现的文本聚类框架USNID

Latte 专场: 深度解读视频生成与训练技术

5 MMDetection 代码教学

多模态大模型幻觉成因解释以及基于惩罚回退策略的幻觉缓解方法

如何高效微调大模型？技术原理与最佳实践揭秘！

解析时间超分辨率中的歧义问题

4. 使用 MMDetection3D 训练

书生·浦语大模型全链路开源体系

迈向更强的开集目标检测-From Detection to Grounding

PK 周杰伦，全能音乐创作大模型 SongComposer 作词作曲令人惊叹

OpenMMLab基础模型研究进展

多模态扩散模型的革新应用 | 热门研究云际会#4

AI实战营第二期开营仪式

Stable Diffusion 3 论文技术解析，架构细节大揭秘！

社区开放麦#19 | 对 AI 炼丹师友好的模型部署探索

单阶段多维度模型搜索范式

【OpenMMLab 2.0 系列直播】MMClassification 介绍

Python 前置基础知识