零样本语音生成大模型与Amphion实践 - 视频下载 Video Downloader

零样本语音生成大模型与Amphion实践

发布人

【分享人】
王远程 香港中文大学（深圳）博士一年级，导师为香港中文大学（深圳）教授武执政，研究方向为语音生成大模型。
李珈祺 香港中文大学（深圳）即将入学博士生，导师为香港中文大学（深圳）教授武执政，研究方向包括音频编解码器、大语言 TTS 模型、声音伪造检测。
【分享内容】
• 音频编解码器
• 零样本语音生成模型
• Amphion 实战

【相关资料】
Paper：
https://arxiv.org/abs/2312.09911
https://arxiv.org/abs/2403.03100
Code:
https://github.com/open-mmlab/Amphion

打开封面下载高清视频观看高清视频视频下载器

超越GPT-4o mini！北大开源国产多模态版o1，超强视觉推理惊呆网友

MaskGCT：基于掩码生成模型的大规模零样本 TTS 模型

F5-TTS V3版 - API版，新增api接口功能，上海交大最新零样本语音克隆，文本转语音本地一键整合包下载

语音合成速度最快的开源TTS | 基于MIT协议可商用的开源TTS | 这是我用过合成速度最快的开源TTS

GLM-4-Voice一键包,端到端AI语音大模型,TTS,文本转语音,指令式语音定制,大模型语音对话,至少需要20G显存,智谱AI开源

微软研究院谭旭带来零样本 TTS 模型 NaturalSpeech 3

爆华为910C量产，良率只有20%

TTS开源新王：MaskGCT！音色克隆语音生成能力神中神！借助AI配音，GPT-SoVITS、CosyVoice和F5-TTS四王同台PK。

鲨疯了！最适合新手入门的【LLM医疗大模型】教程：医疗大模型LLM应用现状及如何微调一个医疗大模型？我竟然一天就搞懂了！

【AI虚拟伙伴】对接本地CosyVoice语音合成教程 cosyvoice_simple_api开源

天才中单体验德国女大学生开学的一天

F5-TTS V2版 - 上海交大最新零样本语音克隆，新增模型微调训练，音色克隆还原度更高本地一键整合包下载

OpenCompass 评测书生大模型实践

MultiTTT最新版：免费朗读小说，轻松修改语音

开源AI女友安装教学 [Open-LLM-VTuber]

【全374集】2024最新清华内部版！终于把AI大模型（LLM）讲清楚了！全程干货讲解，通俗易懂，拿走不谢！

【N8N教程】字幕翻译到语音生成视频搬运一条龙教程全程免费[N8N+NocoDB+EdgeTTS+沉浸式翻译]

大模型做 OCR？ Llama OCR 和 Zerox 介绍

用AI做古人怼人视频，小白也能涨粉20W

GPT-SoVITS-V2一键包,1031,修复更新,解决GPK乱码问题,变声器,AI文字转语音,TTS,花佬开源

B站讲的最好的AI大模型天花板教程（2025最新版）3天学完LLM+RAG系统+OpenAI+GPT-4o，ai大模型让你少走99%的弯路！

不会带团队，只能干到死

2024吃透AI大模型（LLM+RAG系统+GPT-4o+OpenAI），3天学完，让你少走99%弯路！

4 目标检测算法基础

AI唱歌：Seed-VC对比RVC的效果

AI语音模仿克隆工具MaskGCT，国产效果还不错的TTS，附带一键整合包

LMDeploy 量化部署 LLM-VLM 实践

ESP32进行在线语音合成

炸裂开源！完美跨语言转译视频，全新完全非自回归的TTS模型MaskGCT！

文字字符识别与 MMOCR 实践

AI时代数据应用的全链路工厂- Chat2DB

简易AI语音对口型同步生成器- Talking Avatar AI

一句话生成应用，现在人人可用了👩‍💻

6 语义分割算法基础

开源工具MinerU助力复杂PDF高效解析提取

吓死我了！给玩偶做义体机器人改造，它竟然张嘴说话了！

从扑街游戏的秽土转生之法，到整理电子博物馆，制作赛博英灵殿。我在想，我是不是应该录点视频留着以后和不肖子孙对喷了。

当大模型遇上心理咨询：基于心理咨询报告的对话重构和评测框架CPsyCoun

语音与音频生成 Amphion揭秘霉霉如何演唱《稻香》

Telegram十亿用户市场无人问津？微软AI月访破6000万！