基于多任务学习的异常感知的内群点建模及多尺度的异常值打分

发布人

本文提出了一种异常声音检测方法。通过多任务学习方法将异常样本曝光（outlier exposure）和内部建模（inlier modeling）融合在一个统一的框架内。基于异常样本曝光的方法可以有效地提取特征，但不具有很好的鲁棒性。内部建模能够生成鲁棒的特征，但这些特征的异常检测效果并不理想。为了弥补彼此的不足，一些串行和并行方法被提出来将这两种方法结合起来，但都可能会增加额外的步骤完成模型的建模，对于模型日后的训练和维护都带来不便。为了克服这些限制，我们使用多任务学习训练一个基于Conformer的编码器，用于异常感知的内部建模。此外，我们的方法在进行推理的时候考虑了多尺度的异常打分，可以更加全面的评估异常值。在MIMII和DCASE 2020任务2数据集上的实验结果表明，我们的方法优于最先进的单模型系统，并且与比赛中排名靠前的多系统集成模型有相当的能力。

打开封面下载高清视频观看高清视频视频下载器

基于多任务学习的异常感知的内群点建模及多尺度的异常值打分

【秒懂】语音识别是什么

将子词发音与唇形联合嵌入感知视听语音增强

多说话人交互场景中的目标说话人提取

Sherpa:新一代 Kaldi 部署框架

具有目标说话人吸引子的端到端神经说话人分类的基于注意力的编解码器网络

用于语音情感识别的多尺度时空Transformer模型

Kaldi安装与样例流程介绍

跨语种的语音转换-武执正

基于距离的权重转移，用于从近场到远场的说话人验证模型的微调

自定义语音唤醒中的关键词自适应声学模型剪枝

【语音之家】AI产业沙龙——智能对话平台

基于语音噪声双流谱改善网络使用语音失真损失函数的鲁棒语音识别

面向表现力语音合成的多尺度风格建模与生成-吴志勇

ModelScope魔搭社区及其开源的语音AI模型

基于噪声解耦度量学习的鲁棒声纹识别

【荐】已经开到第四期了，端到端语音识别好课，新增语音大模型内容

基于自然语言描述的跨说话人语音风格转换

用对比学习增强流式与非流式模型

语音合成中的情感强度建模研究

开源语音识别工具wenet 简介 张彬彬

基于多任务学习保留背景音的语音转换

基于新一代kaldi项目的语音识别应用实例-郭理勇 小米

音频生成-王文武

实时多人会话的语音识别-微软首席应用科学家-陈卓

多说话人语音识别中可感知边界的序列化输出训练

Amphion-开源的音频 、音乐和语音生成工具包-武执政

基于随机分类器的小样本类别增量音频分类

利用唤醒词参考语音的高效个人语音活动检测

TFCNet：用于语音分离的时频域校正网络

声纹识别可视化研究分析

利用基于帧级跨模态注意力的音视频Confomer的鲁棒音视频唤醒词识别

MARBLE:通用评价的音乐音频表现基准-马英浩(Yinghao-MA)

面向神经声码器训练的一种合成语料生成方法

声纹识别与语音防伪技术前沿及工作进展

1MB内存下移动说话人验证系统的极低比特量化

2022年声纹识别研究与应用学术研讨会

复杂场景下鲁棒伪造音检测及变声溯源-李明

基于跨模态对齐的从语音到歌声转换-李瑞琪 火山语音

【语音之家公开课】表现力语音与歌唱合成

基于鼾声的睡眠体位识别（数据集）

开源语音识别工具wenet 简介张彬彬

基于新一代kaldi项目的语音识别应用实例-郭理勇小米

Amphion-开源的音频、音乐和语音生成工具包-武执政

基于跨模态对齐的从语音到歌声转换-李瑞琪火山语音