【语音合成】序列模型实战试听

发布人

视频内容节选自《AISHELL-3语音合成实战》https://xjw.xet.tech/s/tgv9C
课程可以带你了解语音合成算法并实践，掌握多说话人合成系统的设计，基于AISHELL-3开源数据库，自主实现语音合成系统的工程搭建。

打开封面下载高清视频观看高清视频视频下载器

【语音合成】什么是语音合成？

Sherpa:新一代 Kaldi 部署框架

面向表现力语音合成的多尺度风格建模与生成-吴志勇

技能点拉满！7个小时一口气带你吃透AI【语音识别-语音合成-语音分离】，原理解读+模型实战，计算机博士一次性讲全了！！（LAS模型/starganvc2）

基于热词短语预测网络的热词语音识别

ReFlow-TTS：一个用于高保真的文本到语音的校正流模型

基于多目标渐进聚类的半监督说话人识别域自适应

WeNet开源社区最新进展

GPT-SOVITS-V2整合包和UE5插件的使用

利用基于帧级跨模态注意力的音视频Confomer的鲁棒音视频唤醒词识别

【声纹识别入门】数据增强（wav层面）

基于平行语料的可逆变声

【音乐与音频处理】什么是音乐理解？卡耐基梅隆大学罗杰·B·丹嫩贝格（Roger-B.DANNENBERG）

基于多通道时空特征和知识蒸馏的鲁棒目标说话人提取研究

一个使用单事件声音的详细的音频-文本数据模拟管道

【语音识别入门】单因子模型的训练与解码

【语音之家】AI产业沙龙—京东在AI语音方向的技术探索与实践

【Wenet语音识别】环境配置

域移下异常声音检测的分层元数据信息约束自监督学习

通过特征解纠缠技术进行跨城市和设备的声学场景分类

开源语音识别工具wenet 简介张彬彬

【声纹识别入门】数据准备

【声纹识别入门】什么是短时分析（Short Time Analysis）？

【声纹识别入门】ASV-Subtools工具环境配置

开源语音识别工具WeNet，从入门到精通

基于序列胶囊网络的语音情感识别

文本到音频的生成:技术和应用-刘豪赫(Haohe LIU)

一种端到端脑电图通道选择的脑辅助语音增强方法

利用唤醒词参考语音的高效个人语音活动检测

圆桌：语音开源技术张仕良张彬彬康魏

仅需40个Token，高质量重建音频

基于conformer的热词增强方法

基于序列到序列预测的特定人语音活动检测

MARBLE:通用评价的音乐音频表现基准-马英浩(Yinghao-MA)

Discussion：生成音频AI和研究社区、艺术产业、公众.mp4

说话人识别模型的可解释性-王东

说话人日志与语音识别的多层联合推理

【声纹识别入门】损失函数的设计方法

基于跨模态对齐的从语音到歌声转换-李瑞琪火山语音

Trimtail：语音识别延迟优化中的暴利美学

【语音合成】序列模型实战 试听

【语音合成】什么是语音合成？

Sherpa:新一代 Kaldi 部署框架

面向表现力语音合成的多尺度风格建模与生成-吴志勇

技能点拉满！7个小时一口气带你吃透AI【语音识别-语音合成-语音分离】，原理解读+模型实战，计算机博士一次性讲全了！！（LAS模型/starganvc2）

基于热词短语预测网络的热词语音识别

ReFlow-TTS：一个用于高保真的文本到语音的校正流模型

基于多目标渐进聚类的半监督说话人识别域自适应

WeNet开源社区最新进展

GPT-SOVITS-V2整合包和UE5插件的使用

利用基于帧级跨模态注意力的音视频Confomer的鲁棒音视频唤醒词识别

【声纹识别入门】数据增强（wav层面）

基于平行语料的可逆变声

【音乐与音频处理】什么是音乐理解？卡耐基梅隆大学 罗杰·B·丹嫩贝格（Roger-B.DANNENBERG）

基于多通道时空特征和知识蒸馏的鲁棒目标说话人提取研究

一个使用单事件声音的详细的音频-文本数据模拟管道

【语音识别入门】单因子模型的训练与解码

【语音之家】AI产业沙龙—京东在AI语音方向的技术探索与实践

【Wenet语音识别】环境配置

域移下异常声音检测的分层元数据信息约束自监督学习

通过特征解纠缠技术进行跨城市和设备的声学场景分类

开源语音识别工具wenet 简介 张彬彬

【声纹识别入门】数据准备

【声纹识别入门】什么是短时分析（Short Time Analysis）？

【声纹识别入门】ASV-Subtools工具环境配置

开源语音识别工具WeNet，从入门到精通

基于序列胶囊网络的语音情感识别

文本到音频的生成:技术和应用-刘豪赫(Haohe LIU)

一种端到端脑电图通道选择的脑辅助语音增强方法

利用唤醒词参考语音的高效个人语音活动检测

圆桌：语音开源技术 张仕良 张彬彬 康魏

仅需40个Token，高质量重建音频

基于conformer的热词增强方法

基于序列到序列预测的特定人语音活动检测

MARBLE:通用评价的音乐音频表现基准-马英浩(Yinghao-MA)

Discussion：生成音频AI和研究社区、艺术产业 、公众.mp4

说话人识别模型的可解释性-王东

说话人日志与语音识别的多层联合推理

【声纹识别入门】损失函数的设计方法

基于跨模态对齐的从语音到歌声转换-李瑞琪 火山语音

Trimtail：语音识别延迟优化中的暴利美学

【语音合成】序列模型实战试听

【音乐与音频处理】什么是音乐理解？卡耐基梅隆大学罗杰·B·丹嫩贝格（Roger-B.DANNENBERG）

开源语音识别工具wenet 简介张彬彬

圆桌：语音开源技术张仕良张彬彬康魏

Discussion：生成音频AI和研究社区、艺术产业、公众.mp4

基于跨模态对齐的从语音到歌声转换-李瑞琪火山语音