V
主页
MaskGCT:基于掩码生成模型的大规模零样本 TTS 模型
发布人
近期,港中大(深圳)联手趣丸科技联合推出了新一代大规模声音克隆 TTS 模型 ——MaskGCT。该模型在包含 10 万小时多语言数据的 Emilia 数据集上进行训练,展现出超自然的语音克隆、风格迁移以及跨语言生成能力,同时保持了较强的稳定性。MaskGCT 已在香港中文大学(深圳)与上海人工智能实验室联合开发的开源系统 Amphion 发布。
打开封面
下载高清视频
观看高清视频
视频下载器
微软研究院谭旭带来零样本 TTS 模型 NaturalSpeech 3
有声读物之音效功能!支持GPT-SoVITS/CosyVoice/F5-TTS/MaskGCT多语言引擎混用的有声书制作工具!
【LLM前沿】6小时精讲四大多模态大模型CLIP BLIP VIT MLLM及对话机器人办公助手!绝对的通俗易懂的大模型应用教程!
登上GitHub趋势榜榜首的TTS开源大模型:MaskGCT,刷新全球多项SOTA
XTuner 大模型单卡低成本微调实战
零样本语音生成大模型与Amphion实践
鲨疯了!最适合新手入门的【LLM医疗大模型】教程:医疗大模型LLM应用现状及如何微调一个医疗大模型?我竟然一天就搞懂了!
大模型RAG企业项目实战:手把手带你基于Langchain搭建一套完整的RAG系统,原理讲解+代码解析,看完就能跑通!LLM大模型_RAG_大模型微调_多模态
FinGPT开源金融垂类大模型
【全100集】花2w买的SD教程!我付费,你白嫖,全程干货无废话!全网最详细的Stable Diffusion教程,存下吧,比盲目自学好多了!
多模态大模型发展简述及其微调部署实践(InternVL2为例)
6 语义分割算法基础
5 MMDetection 代码教学
7 MMSegmentation 代码教学
MaskGCT一键包,AI声音克隆语音模型,至少需要11G显存,不适合甜品级显卡,TTS,文字转语音,open-mmlab团队开源
【Agent+RAG】10小时博士精讲AI Agent(人工智能体)系列—提示工程、文本大模型、GPT...
新一代换脸神器 InstantID:高保真人像秒级生成
【本地知识库解决方案】GraphRAG 就应该这么学! | 传统RAG与GraphRAG的构建区别 | Microsoft GraphRAG 底层原理解
2. 使用 MMDet3D 预训练模型在点云和数据图像上推理
无限制聊天ai 超多角色可以游玩 堪比星野的ai聊天软件
本地部署开源超低延迟音频生成模型:hertz-dev!支持4090显卡,理论延迟80毫秒!真正端到端零延迟语音生成模型!实时语音交互,8.5亿参数全双工
数据集采集与标注、LabelBee工具介绍
CVPR'24 | 视觉基础模型大一统?融合CLIP、DINOv2、SAM等,实现分类分割等任务上的SOTA性能
评估大语言模型多轮对话能力的细粒度评测集
大模型时代通用检测趋势解读及MMDetection未来展望
【你知道吗?】Cursor如何索引你的代码库文件?
MMPretrain代码课
Phidata:首个代理 UI - 构建具有记忆、知识、工具和推理能力的代理!(开源)
星语天文大模型,科普与科学领域的多模态、智能体探索
爽翻了!用ai一键生成小说投到平台成功签约单日稿费五六百!
CVPR23 | 3D Occupancy 预测冠军方案:FB-OCC
人体姿态估计与 MMPose 实践
强推!这可能是B站最全的(Python+Transformer+大模型)系列课程了,堪称AI大模型系列课程的巅峰之作!-人工智能/提示词工程/RAG/大模型微调
社区开放麦#34 | 突破 AI 推理性能瓶颈,神经网络量化的方法与实践
【全874集】目前B站最全最细的ChatGPT零基础全套教程,2024最新版,包含所有干货!一天就能从小白到大神!少走99%的弯路!存下吧!很难找全的!
如何基于大模型构建智能体?多机构百页综述从交互角度详解 AI Agent!
XTuner 微调 LLaVA 实践
超大规模视觉通用感知模型-代季峰教授 | AI奇妙夜#6
4小时入门深度学习+实操MMDetection 第一课
【整整108集】顶级大佬196小时讲完的Midjourney教程(AI绘画)全程干货无废话!小白入门到精通!这还学不会,我退出绘画圈!