MaskGCT：基于掩码生成模型的大规模零样本 TTS 模型 - 视频下载 Video Downloader

MaskGCT：基于掩码生成模型的大规模零样本 TTS 模型

发布人

近期，港中大（深圳）联手趣丸科技联合推出了新一代大规模声音克隆 TTS 模型 ——MaskGCT。该模型在包含 10 万小时多语言数据的 Emilia 数据集上进行训练，展现出超自然的语音克隆、风格迁移以及跨语言生成能力，同时保持了较强的稳定性。MaskGCT 已在香港中文大学（深圳）与上海人工智能实验室联合开发的开源系统 Amphion 发布。

打开封面下载高清视频观看高清视频视频下载器

微软研究院谭旭带来零样本 TTS 模型 NaturalSpeech 3

有声读物之音效功能！支持GPT-SoVITS/CosyVoice/F5-TTS/MaskGCT多语言引擎混用的有声书制作工具！

【LLM前沿】6小时精讲四大多模态大模型CLIP BLIP VIT MLLM及对话机器人办公助手！绝对的通俗易懂的大模型应用教程！

登上GitHub趋势榜榜首的TTS开源大模型：MaskGCT，刷新全球多项SOTA

XTuner 大模型单卡低成本微调实战

零样本语音生成大模型与Amphion实践

鲨疯了！最适合新手入门的【LLM医疗大模型】教程：医疗大模型LLM应用现状及如何微调一个医疗大模型？我竟然一天就搞懂了！

大模型RAG企业项目实战：手把手带你基于Langchain搭建一套完整的RAG系统，原理讲解+代码解析，看完就能跑通！LLM大模型_RAG_大模型微调_多模态

FinGPT开源金融垂类大模型

【全100集】花2w买的SD教程！我付费，你白嫖，全程干货无废话！全网最详细的Stable Diffusion教程，存下吧，比盲目自学好多了！

多模态大模型发展简述及其微调部署实践(InternVL2为例)

6 语义分割算法基础

5 MMDetection 代码教学

7 MMSegmentation 代码教学

MaskGCT一键包,AI声音克隆语音模型,至少需要11G显存,不适合甜品级显卡,TTS,文字转语音,open-mmlab团队开源

【Agent+RAG】10小时博士精讲AI Agent(人工智能体)系列—提示工程、文本大模型、GPT...

新一代换脸神器 InstantID：高保真人像秒级生成

【本地知识库解决方案】GraphRAG 就应该这么学！ | 传统RAG与GraphRAG的构建区别 | Microsoft GraphRAG 底层原理解

2. 使用 MMDet3D 预训练模型在点云和数据图像上推理

无限制聊天ai 超多角色可以游玩堪比星野的ai聊天软件

本地部署开源超低延迟音频生成模型：hertz-dev！支持4090显卡，理论延迟80毫秒！真正端到端零延迟语音生成模型！实时语音交互，8.5亿参数全双工

数据集采集与标注、LabelBee工具介绍

CVPR'24 | 视觉基础模型大一统？融合CLIP、DINOv2、SAM等，实现分类分割等任务上的SOTA性能

评估大语言模型多轮对话能力的细粒度评测集

大模型时代通用检测趋势解读及MMDetection未来展望

【你知道吗？】Cursor如何索引你的代码库文件?

MMPretrain代码课

Phidata：首个代理 UI - 构建具有记忆、知识、工具和推理能力的代理！（开源）

星语天文大模型，科普与科学领域的多模态、智能体探索

爽翻了！用ai一键生成小说投到平台成功签约单日稿费五六百！

CVPR23 | 3D Occupancy 预测冠军方案：FB-OCC

人体姿态估计与 MMPose 实践

强推！这可能是B站最全的（Python＋Transformer＋大模型）系列课程了，堪称AI大模型系列课程的巅峰之作！-人工智能/提示词工程/RAG/大模型微调

社区开放麦#34 | 突破 AI 推理性能瓶颈，神经网络量化的方法与实践

【全874集】目前B站最全最细的ChatGPT零基础全套教程，2024最新版，包含所有干货！一天就能从小白到大神！少走99%的弯路！存下吧！很难找全的！

如何基于大模型构建智能体？多机构百页综述从交互角度详解 AI Agent！

XTuner 微调 LLaVA 实践

超大规模视觉通用感知模型-代季峰教授 | AI奇妙夜#6

4小时入门深度学习+实操MMDetection 第一课

【整整108集】顶级大佬196小时讲完的Midjourney教程（AI绘画）全程干货无废话！小白入门到精通！这还学不会，我退出绘画圈！