Whisper终结者：Reverb ASR 语音识别和说话人分离方面新标杆在前所未有的20万小时人工转录数据上进行训练支持可定制的逐字转录

发布人

Hugging Face Hub上的Rev模型仓库：https://huggingface.co/Revai
更多AI前沿进展，关注【语音之家】全平台同名。

打开封面下载高清视频观看高清视频视频下载器

我实现了语音流式转录翻译!（win11实时字幕+Luna Translator hook）

AI一键音频转文字、音频转字幕工具，视频生成字幕、语音转文本，OpenAI开源语音识别神器Whisper本地一键整合包下载

浙大清华发布语音伪造检测框架SafeEar，内容隐私保护，语音造假无处遁形

Sherpa:新一代 Kaldi 部署框架

基于多级域适配器的鲁棒跨域说话人验证技术

【补档】【地狱有什么不好】阿斯莫德全语音附战斗动画

更快的语音识别模型whisper-large-v3-turbo

自动化转写 | 自动化语音识别 | 对直播录屏自动化生成字幕 | 大模型总结视频内容

圆桌：语音开源技术张仕良张彬彬康魏

Daniel Povey|Zipformer:一种改进的语音识别编码器

多说话人交互场景中的目标说话人提取

基于faster_whisper的实时语音识别改进版 | whisper中出现繁体中文的解决方法 | 语音识别中繁体转简体 | OpenCC

DualVC 2：用于统一流式与非流式语音转换的动态掩码卷积

实测 OpenAI 高级语音功能 & 常见问题解答

基于音频辨别的对比学习在连续语音中的可定制关键词检测

基于多目标渐进聚类的半监督说话人识别域自适应

域移下异常声音检测的分层元数据信息约束自监督学习

【声纹识别】什么是声纹识别？声纹识别发展历程怎样？

ReFlow-TTS：一个用于高保真的文本到语音的校正流模型

【AI风月】AI聊天无限制词，打造你的AI女友

【荐】已经开到第四期了，端到端语音识别好课，新增语音大模型内容

PromptVC：基于自然语言提示的潜在空间灵活风格语音转换

SELM：基于离散标记和语言模型的语音增强方法

王者荣耀影死亡姿势欣赏

添加双语字幕功能啦可以保存双语字幕了二哲AI视频播放器

通过NVIDIA NEMO 训练语音AI模型（下）

说话人日志与语音识别的多层联合推理

少走99%的弯路！0基础快速入门语音识别

超划算的语音课程，确定不来了解下？

跨多种阵列拓扑结构的多通道语音识别自动通道选择与空间特征集成

【音乐与音频处理】在学术计算规模上再现大型预训练语音模型-Shinji-WATANABE

基于热词短语预测网络的热词语音识别

【实操】通过NVIDIA NEMO 训练语音AI模型（上）

如何工程化一个语音开源项目：手把手带你实现开源声纹分割聚类项目 pyannote-audio 的工程化

仅需40个Token，高质量重建音频

展示篇5:AI实时互动数字人(婚姻法律专家LLM+本地知识库)

VoxBlink:短视频上的大规模说话人验证数据集

【聘】语音识别算法工程师

几百块本地部署直播实时语音识别自动字幕 obs localvocal

开源语音识别工具wenet 简介张彬彬

Whisper终结者：Reverb ASR 语音识别和说话人分离方面新标杆 在前所未有的20万小时人工转录数据上进行训练 支持可定制的逐字转录

我实现了语音流式转录翻译!（win11实时字幕+Luna Translator hook）

AI一键音频转文字、音频转字幕工具，视频生成字幕、语音转文本，OpenAI开源语音识别神器Whisper本地一键整合包下载

浙大清华发布语音伪造检测框架SafeEar，内容隐私保护，语音造假无处遁形

Sherpa:新一代 Kaldi 部署框架

基于多级域适配器的鲁棒跨域说话人验证技术

【补档】【地狱有什么不好】阿斯莫德全语音附战斗动画

更快的语音识别模型whisper-large-v3-turbo

自动化转写 | 自动化语音识别 | 对直播录屏自动化生成字幕 | 大模型总结视频内容

圆桌：语音开源技术 张仕良 张彬彬 康魏

Daniel Povey|Zipformer:一种改进的语音识别编码器

多说话人交互场景中的目标说话人提取

基于faster_whisper的实时语音识别改进版 | whisper中出现繁体中文的解决方法 | 语音识别中繁体转简体 | OpenCC

DualVC 2：用于统一流式与非流式语音转换的动态掩码卷积

实测 OpenAI 高级语音功能 & 常见问题解答

基于音频辨别的对比学习在连续语音中的可定制关键词检测

基于多目标渐进聚类的半监督说话人识别域自适应

域移下异常声音检测的分层元数据信息约束自监督学习

【声纹识别】什么是声纹识别？声纹识别发展历程怎样？

ReFlow-TTS：一个用于高保真的文本到语音的校正流模型

【AI风月】AI聊天无限制词，打造你的AI女友

【荐】已经开到第四期了，端到端语音识别好课，新增语音大模型内容

PromptVC：基于自然语言提示的潜在空间灵活风格语音转换

SELM：基于离散标记和语言模型的语音增强方法

王者荣耀影死亡姿势欣赏

添加双语字幕功能啦 可以保存双语字幕了 二哲AI视频播放器

通过NVIDIA NEMO 训练语音AI模型（下）

说话人日志与语音识别的多层联合推理

少走99%的弯路！0基础快速入门语音识别

超划算的语音课程，确定不来了解下？

跨多种阵列拓扑结构的多通道语音识别自动通道选择与空间特征集成

【音乐与音频处理】在学术计算规模上再现大型预训练语音模型-Shinji-WATANABE

基于热词短语预测网络的热词语音识别

【实操】通过NVIDIA NEMO 训练语音AI模型（上）

如何工程化一个语音开源项目： 手把手带你实现开源声纹分割聚类项目 pyannote-audio 的工程化

仅需40个Token，高质量重建音频

展示篇5:AI实时互动数字人(婚姻法律专家LLM+本地知识库)

VoxBlink:短视频上的大规模说话人验证数据集

【聘】语音识别算法工程师

几百块本地部署 直播实时语音识别 自动字幕 obs localvocal

开源语音识别工具wenet 简介 张彬彬

Whisper终结者：Reverb ASR 语音识别和说话人分离方面新标杆在前所未有的20万小时人工转录数据上进行训练支持可定制的逐字转录

圆桌：语音开源技术张仕良张彬彬康魏

添加双语字幕功能啦可以保存双语字幕了二哲AI视频播放器

如何工程化一个语音开源项目：手把手带你实现开源声纹分割聚类项目 pyannote-audio 的工程化

几百块本地部署直播实时语音识别自动字幕 obs localvocal

开源语音识别工具wenet 简介张彬彬