基于Transducer的流式自适应热词语音识别

发布人

深度偏置(Deep Biasing)方法能纳入额外的上下文信息，是个性化词汇语音识别的一个有效解决方案。然而，对于工业应用的语音助手来说，总是偏重于这种具有高预测分数的个性化词汇会大大降低识别普通词汇的性能。为了解决这个问题，我们提出了一种基于Context-Aware Transformer Transducer for Speech Recognition（CATT）的自适应改进，利用偏置编码器和预测器嵌入来对上下文短语的出现进行流式预测。这种预测被用来动态地控制热词列表的开关，使该模型能够适应个性化和普通场景。在Librispeech和内部语音助手数据集上的实验表明，对于非热词场景与基线相比，我们的方法可以分别实现6.7％和20.7％的WER和CER的相对减少，在英文和中文测试集上可以缓解96.7％和84.9％的相对WER和CER的增加。此外，我们的方法尽可能地降低了在个性化场景中的性能影响，同时保持了transducer流式推理流程。

打开封面下载高清视频观看高清视频视频下载器

基于Transducer的流式自适应热词语音识别

【语音识别】声学特征提取

少走99%的弯路！0基础快速入门语音识别

Sherpa:新一代 Kaldi 部署框架

用于声学信号内容理解的机器学习算法前瞻 -李圣辰 -西交利物浦大学

适应多语言ASR模型，以处理多个说话人

SlideSpeech：大规模幻灯片丰富的语音-视频语料库

kaldi语音识别：GMM训练

【声纹识别】什么是声纹识别？声纹识别发展历程怎样？

基于conformer的热词增强方法

基于多目标渐进聚类的半监督说话人识别域自适应

用对比学习增强流式与非流式模型

【荐】已经开到第四期了，端到端语音识别好课，新增语音大模型内容

【秒懂】语音识别是什么

基于自适应和多级分解双线性池的注意网络信息融合视听情绪识别

圆桌：音频与大模型（欧智坚 何磊 钱彦旻 易江燕 栾剑 张超）

圆桌：语音开源技术 张仕良 张彬彬 康魏

【Wenet语音识别】功能架构和模型结构

【秒懂】智能语音技术范畴

Daniel Povey|Zipformer:一种改进的语音识别编码器

基于语音识别预训练的说话人识别方法

超划算的语音课程，确定不来了解下？

如何用开源工具实现一个完整的语音识别系统？

Panel ：语音技术新时代

WeNet开源社区最新进展

【音乐与音频处理】什么是音乐理解？卡耐基梅隆大学 罗杰·B·丹嫩贝格（Roger-B.DANNENBERG）

基于多通道时空特征和知识蒸馏的鲁棒目标说话人提取研究

开源语音和 wenet-e2e 社区

说话人日志与语音识别的多层联合推理

【ICASSP2024】基于记忆感知和Seq2Seq架构的说话人日志系统

面向表现力语音合成的多尺度风格建模与生成-吴志勇

UniSplice:面向低资源ASR的通用跨语言数据拼接

基于多通道训练和交叉信息融合的低资源端到端口音识别

实时多人会话的语音识别-微软首席应用科学家-陈卓

通过扬声器提示调优和适配器表示的双参数高效微调【香港理工大学】

多通道、多人及非基于声纹编码向量的特定人语音抽取-李明

以目标语音识别为例，弱监督语音预训练

利用基于帧级跨模态注意力的音视频Confomer的鲁棒音视频唤醒词识别

如何工程化一个语音开源项目： 手把手带你实现开源声纹分割聚类项目 pyannote-audio 的工程化

一个使用单事件声音的详细的音频-文本数据模拟管道

说话人识别模型的可解释性-王东

圆桌：音频与大模型（欧智坚何磊钱彦旻易江燕栾剑张超）

圆桌：语音开源技术张仕良张彬彬康魏

【音乐与音频处理】什么是音乐理解？卡耐基梅隆大学罗杰·B·丹嫩贝格（Roger-B.DANNENBERG）

如何工程化一个语音开源项目：手把手带你实现开源声纹分割聚类项目 pyannote-audio 的工程化