基于音频辨别的对比学习在连续语音中的可定制关键词检测

发布人

报告题目：Contrastive Learning With Audio Discrimination For Customizable Keyword Spotting In Continuous Speech

完整版：https://umtue.xetlk.com/s/1MJAmK
 
报告摘要： 
连续语音中的可定制关键词检测因其在现实世界中的应用潜力而受到越来越多的关注。虽然对比学习已被广泛用于提取关键词表征，但以往的对比学习方法都是对预先分割的孤立词进行操作，并且只采用音频-文本表征匹配策略。然而，对于连续语音中的关检测监测，共同发音和流式单词分割很容易产生不同文本的相似音频模式，从而引发误报。为了解决这个问题，我们提出了一种新颖的带音频辨别的对比学习策略，用于学习具有音频-文本匹配和音频-音频辨别能力的关键词表示。在此，我们在训练过程中的每个滑动窗口都采用了 InfoNCE 损失，该损失同时考虑了音频-音频和音频-文本的数据对。我们在开源 LibriPhrase 数据集上进行的评估表明，与之前的方法相比，使用滑动窗口级别的 InfoNCE 损失可获得相当的性能。此外，在连续语音数据集 LibriSpeech 上进行的实验表明，通过结合音频的区分性，提出的CLAD 比没有音频判别的 CL 性能有显著提高。同时，与两阶段语音唤醒方法相比，采用 CLAD 的端到端唤醒系统不仅性能更好，而且推理速度也显著提高。

打开封面下载高清视频观看高清视频视频下载器

基于音频辨别的对比学习在连续语音中的可定制关键词检测

Whisper终结者：Reverb ASR 语音识别和说话人分离方面新标杆 在前所未有的20万小时人工转录数据上进行训练 支持可定制的逐字转录

【清华】从0开始学Kaldi，丝滑入门语音识别，语音识别原来如此简单

域移下异常声音检测的分层元数据信息约束自监督学习

TDT-KWS：基于标记和持续时间转换器的快速精准关键词检测系统

【语音识别】声学特征提取

2021年声纹识别研究与应用学术研讨会

少走99%的弯路！0基础快速入门语音识别

对标OpenAI高级语音【Her】 开源实时多模态AI聊天机器人Moshi，语音对话延迟低至200毫秒！67页技术报告全公开 AI大神Karpathy盛赞

跨多种阵列拓扑结构的多通道语音识别自动通道选择与空间特征集成

自适应过滤器的元学习初始化背后是什么？-是一种加速自适应多通道主动噪声控制收敛的简单方法

交互式AI中语音技术实践与探索-万玉龙

【声纹识别】什么是声纹识别？声纹识别发展历程怎样？

特定人合成及变声与录音回放语音攻击检测

基于GAN的无监督机器音频异常检测与定位

西工大ASLP实验室语音生成模型新进展-西北工业大学谢磊老师

通过扬声器提示调优和适配器表示的双参数高效微调【香港理工大学】

【ICASSP2024】基于记忆感知和Seq2Seq架构的说话人日志系统

基于语音噪声双流谱改善网络使用语音失真损失函数的鲁棒语音识别

利用基于帧级跨模态注意力的音视频Confomer的鲁棒音视频唤醒词识别

基于序列到序列预测的特定人语音活动检测

什么是语音信号？

SELM：基于离散标记和语言模型的语音增强方法

基于预训练的伪造语音检测研究进展-张鹏远

一种端到端脑电图通道选择的脑辅助语音增强方法

【语音识别】语音的采样与量化

MISP 2023挑战中视听目标扬声器提取的XMUSPEECH系统

利用位置相关的局部-全局依赖进行合成语音检测

上新了 语音之家 | 声纹识别与音频处理实战课—王泉

ESPnet-SE开源工具介绍-钱彦旻 上海交通大学

多通道、多人及非基于声纹编码向量的特定人语音抽取-李明

面向有声读物合成的上下文感知连贯性说话风格预测方法

多分辨率频率编码器和解码器辅助的时域语音增强

基于SepFormer的交叉注意力音视频目标说话人语音提取方法

2022年声纹识别研究与应用学术研讨会

高速高质量零资源歌声合成-雪巍

开源语音和 wenet-e2e 社区

VoiceFlow:高效的文本到语音的纠正流量匹配

端到端语音到语音翻译中的零样本风格迁移

感知难度的说话人识别数据增强

复杂声学场景下基于复数谱的语音增强和去混技术研究

Whisper终结者：Reverb ASR 语音识别和说话人分离方面新标杆在前所未有的20万小时人工转录数据上进行训练支持可定制的逐字转录

对标OpenAI高级语音【Her】开源实时多模态AI聊天机器人Moshi，语音对话延迟低至200毫秒！67页技术报告全公开 AI大神Karpathy盛赞

上新了语音之家 | 声纹识别与音频处理实战课—王泉

ESPnet-SE开源工具介绍-钱彦旻上海交通大学