【课程推荐】kaldi语音识别实战 | 0基础适用

发布人

视频出自语音之家AI工匠学堂《Kaldi语音识别理论与实践》，清华大学老师亲自授课，还有语音实验室实习机会！
详细课程介绍可参考：公开课 | Kaldi语音识别理论与实践精选整理https://zhuanlan.zhihu.com/p/540995710

打开封面下载高清视频观看高清视频视频下载器

【声纹识别】什么是声纹识别？声纹识别发展历程怎样？

【语音识别】语音的采样与量化

2021年声纹识别研究与应用学术研讨会

开源语音识别利器——NVIDIA NEMO

Kaldi安装与样例流程介绍

【语音识别】语音文件分析

【Wenet语音识别】功能架构和模型结构

语音之家公开课 —《Kaldi语音识别理论与实践》课程交流

如何工程化一个语音开源项目：手把手带你实现开源声纹分割聚类项目 pyannote-audio 的工程化

ModelScope语音开源现状和语音语义多模态大模型研究进展张仕良

【荐】人工智能顶会开始投稿了，还有机会获得5000美元，interspeech2025 录用率48%，来稿就收，新人友好，光速审核！

多说话人交互场景中的目标说话人提取

开源语音识别工具wenet 简介张彬彬

AI语音面试常见问题：端到端模型与传统模型的区别

喜马拉雅语音识别技术和应用介绍

基于音频辨别的对比学习在连续语音中的可定制关键词检测

Daniel Povey|Zipformer:一种改进的语音识别编码器

【科普】语音识别分类大科普！你真的知道所有语音识别分类吗？

当前语音信号处理面临的挑战

Sherpa:新一代 Kaldi 部署框架

高速高质量零资源歌声合成-雪巍

如何用开源工具实现一个完整的语音识别系统？

语音识别基础：从声音到语音

利用唤醒词参考语音的高效个人语音活动检测

【闲话AI】什么是自动语音识别？

kaldi语音识别：数据准备与特征提取

Kaldi中的神经网络

【入门语音识别】WFST理论

【实操】通过NVIDIA NEMO 训练语音AI模型（上）

超划算的语音课程，确定不来了解下？

跨语言语音识别中基于联合语音表征学习的音素到词转码器

开源语音和 wenet-e2e 社区

语音之家公开课 —《ASV-Subtools 声纹识别实战》课程交流

对标OpenAI高级语音【Her】开源实时多模态AI聊天机器人Moshi，语音对话延迟低至200毫秒！67页技术报告全公开 AI大神Karpathy盛赞

【语音之家公开课】多说话人语音识别的前沿进展

感知难度的说话人识别数据增强

kaldi之父 Daniel-Povey：Next-Gen Kaldi: Status and Near-term Plans

基于自监督学习前端特征的通用歌唱语音语种识别方法

【语音】浅谈端到端语音识别

基于语音噪声双流谱改善网络使用语音失真损失函数的鲁棒语音识别

【课程推荐】kaldi语音识别实战 | 0基础适用

【声纹识别】什么是声纹识别？声纹识别发展历程怎样？

【语音识别】语音的采样与量化

2021年声纹识别研究与应用学术研讨会

开源语音识别利器——NVIDIA NEMO

Kaldi安装与样例流程介绍

【语音识别】语音文件分析

【Wenet语音识别】功能架构和模型结构

语音之家公开课 —《Kaldi语音识别理论与实践》课程交流

如何工程化一个语音开源项目： 手把手带你实现开源声纹分割聚类项目 pyannote-audio 的工程化

ModelScope语音开源现状和语音语义多模态大模型研究进展 张仕良

【荐】人工智能顶会开始投稿了，还有机会获得5000美元，interspeech2025 录用率48%，来稿就收，新人友好，光速审核！

多说话人交互场景中的目标说话人提取

开源语音识别工具wenet 简介 张彬彬

AI语音面试常见问题：端到端模型与传统模型的区别

喜马拉雅语音识别技术和应用介绍

基于音频辨别的对比学习在连续语音中的可定制关键词检测

Daniel Povey|Zipformer:一种改进的语音识别编码器

【科普】语音识别分类大科普！你真的知道所有语音识别分类吗？

当前语音信号处理面临的挑战

Sherpa:新一代 Kaldi 部署框架

高速高质量零资源歌声合成-雪巍

如何用开源工具实现一个完整的语音识别系统？

语音识别基础：从声音到语音

利用唤醒词参考语音的高效个人语音活动检测

【闲话AI】什么是自动语音识别？

kaldi语音识别：数据准备与特征提取

Kaldi中的神经网络

【入门语音识别】WFST理论

【实操】通过NVIDIA NEMO 训练语音AI模型（上）

超划算的语音课程，确定不来了解下？

跨语言语音识别中基于联合语音表征学习的音素到词转码器

开源语音和 wenet-e2e 社区

语音之家公开课 —《ASV-Subtools 声纹识别实战》课程交流

对标OpenAI高级语音【Her】 开源实时多模态AI聊天机器人Moshi，语音对话延迟低至200毫秒！67页技术报告全公开 AI大神Karpathy盛赞

【语音之家公开课】多说话人语音识别的前沿进展

感知难度的说话人识别数据增强

kaldi之父 Daniel-Povey：Next-Gen Kaldi: Status and Near-term Plans

基于自监督学习前端特征的通用歌唱语音语种识别方法

【语音】浅谈端到端语音识别

基于语音噪声双流谱改善网络使用语音失真损失函数的鲁棒语音识别

如何工程化一个语音开源项目：手把手带你实现开源声纹分割聚类项目 pyannote-audio 的工程化

ModelScope语音开源现状和语音语义多模态大模型研究进展张仕良

开源语音识别工具wenet 简介张彬彬

对标OpenAI高级语音【Her】开源实时多模态AI聊天机器人Moshi，语音对话延迟低至200毫秒！67页技术报告全公开 AI大神Karpathy盛赞