【科普】语音识别分类大科普！你真的知道所有语音识别分类吗？

发布人

7分钟盘点语音识别系统的不同分类方法！
分享者：谢磊老师（西北工业大学音频语音与语言处理研究组(ASLP@NPU)负责人）

打开封面下载高清视频观看高清视频视频下载器

Whisper终结者：Reverb ASR 语音识别和说话人分离方面新标杆在前所未有的20万小时人工转录数据上进行训练支持可定制的逐字转录

少走99%的弯路！0基础快速入门语音识别

语音之家公开课 —《WeNet语音识别实战》课程交流

金刚经谢磊期货交易纯干货经验分享-01

Amphion-开源的音频、音乐和语音生成工具包-武执政

西工大ASLP实验室语音生成模型新进展-西北工业大学谢磊老师

【语音识别】语音的采样与量化

【入门语音识别】WFST理论

【秒懂】智能语音技术范畴

开源语音识别工具wenet 简介张彬彬

【语音识别入门】语音识别问题

语音识别基础：从声音到语音

【实操】从零搭建声纹识别框架

WeNet开源社区最新进展

【Wenet语音识别】预训练模型-流式和非流式模型

【Wenet语音识别】热词增强在语音识别中的应用

【语音之家】AI技术沙龙-声纹识别

Daniel Povey|Zipformer:一种改进的语音识别编码器

【Wenet语音识别】Transformer和Conformer

基于SepFormer的交叉注意力音视频目标说话人语音提取方法

【实操】通过NVIDIA NEMO 训练语音AI模型（上）

ModelScope语音开源现状和语音语义多模态大模型研究进展张仕良

【语音识别】语音文件分析

低延迟非自回归语音识别方法

4块GPU、不到3天训练出「开源版GPT-4o」基于LLaMA-3.1-8B，羊驼家族再添大将，实现低延迟/高质量的语音互动

【课程推荐】kaldi语音识别实战 | 0基础适用

实时多人会话的语音识别-微软首席应用科学家-陈卓

中文连续视觉语音识别挑战赛

我实在摸不透08的小想法？@领克汽车

多说话人交互场景中的目标说话人提取

多通道声信号感知与处理:原理、现状与挑战陈景东西北工业大学

TFCNet：用于语音分离的时频域校正网络

ModelScope魔搭社区及其开源的语音AI模型

什么是语音增强？语音识别？语音合成？智能语音技术的前沿与发展（5/6）

【全874集】目前B站最全最细的ChatGPT零基础全套教程，2024最新版，包含所有干货！一天就能从小白到大神！少走99%的弯路！存下吧！很难找全的！

关于AI语音圈的顶会的ICASSP，你需要知道……

【台大李宏毅】公开课迈向语音版ChatGPT

开源语音识别利器——NVIDIA NEMO

【语音】浅谈端到端语音识别

字节发布音乐大模型 Seed-Music，10秒录音变身歌声，音乐创作GPT 时刻到来！

【科普】语音识别分类大科普！你真的知道所有语音识别分类吗？

Whisper终结者：Reverb ASR 语音识别和说话人分离方面新标杆 在前所未有的20万小时人工转录数据上进行训练 支持可定制的逐字转录

少走99%的弯路！0基础快速入门语音识别

语音之家公开课 —《WeNet语音识别实战》课程交流

金刚经谢磊期货交易纯干货经验分享-01

Amphion-开源的音频 、音乐和语音生成工具包-武执政

西工大ASLP实验室语音生成模型新进展-西北工业大学谢磊老师

【语音识别】语音的采样与量化

【入门语音识别】WFST理论

【秒懂】智能语音技术范畴

开源语音识别工具wenet 简介 张彬彬

【语音识别入门】语音识别问题

语音识别基础：从声音到语音

【实操】从零搭建声纹识别框架

WeNet开源社区最新进展

【Wenet语音识别】预训练模型-流式和非流式模型

【Wenet语音识别】热词增强在语音识别中的应用

【语音之家】AI技术沙龙-声纹识别

Daniel Povey|Zipformer:一种改进的语音识别编码器

【Wenet语音识别】Transformer和Conformer

基于SepFormer的交叉注意力音视频目标说话人语音提取方法

【实操】通过NVIDIA NEMO 训练语音AI模型（上）

ModelScope语音开源现状和语音语义多模态大模型研究进展 张仕良

【语音识别】语音文件分析

低延迟非自回归语音识别方法

4块GPU、不到3天训练出「开源版GPT-4o」 基于LLaMA-3.1-8B，羊驼家族再添大将，实现低延迟/高质量的语音互动

【课程推荐】kaldi语音识别实战 | 0基础适用

实时多人会话的语音识别-微软首席应用科学家-陈卓

中文连续视觉语音识别挑战赛

我实在摸不透08的小想法？@领克汽车

多说话人交互场景中的目标说话人提取

多通道声信号感知与处理:原理、现状与挑战 陈景东 西北工业大学

TFCNet：用于语音分离的时频域校正网络

ModelScope魔搭社区及其开源的语音AI模型

什么是语音增强？语音识别？语音合成？智能语音技术的前沿与发展（5/6）

【全874集】目前B站最全最细的ChatGPT零基础全套教程，2024最新版，包含所有干货！一天就能从小白到大神！少走99%的弯路！存下吧！很难找全的！

关于AI语音圈的顶会的ICASSP，你需要知道……

【台大李宏毅】公开课 迈向语音版ChatGPT

开源语音识别利器——NVIDIA NEMO

【语音】浅谈端到端语音识别

字节发布音乐大模型 Seed-Music，10秒录音变身歌声，音乐创作GPT 时刻到来！

Whisper终结者：Reverb ASR 语音识别和说话人分离方面新标杆在前所未有的20万小时人工转录数据上进行训练支持可定制的逐字转录

Amphion-开源的音频、音乐和语音生成工具包-武执政

开源语音识别工具wenet 简介张彬彬

ModelScope语音开源现状和语音语义多模态大模型研究进展张仕良

4块GPU、不到3天训练出「开源版GPT-4o」基于LLaMA-3.1-8B，羊驼家族再添大将，实现低延迟/高质量的语音互动

多通道声信号感知与处理:原理、现状与挑战陈景东西北工业大学

【台大李宏毅】公开课迈向语音版ChatGPT