V
主页
具有频率和时间激励网络的双通道异常声音检测框架
发布人
与人类语音相比,同类型的机器生成声音通常表现出一致的频率特征和可辨识的时间周期性。然而,在异常检测中利用这些双重属性仍然相对未被充分探索。本文提出了一种自动化的双通道框架,用于学习不同类型机器的突出频率和时间模式。其中一条路径使用一种新颖的频率和时间激励网络(FTE-Net)来学习频谱图中频率和时间轴上的显著特征。它包括一个频率和时间分块编码器(FTC-Encoder)和一个激励网络。另一条路径使用一维卷积网络进行话语级别的频谱处理。在DCASE 2023任务2数据集上的实验结果显示了我们提出的方法的最新性能。此外,我们提供了激励网络中间特征图的可视化,以说明我们方法的有效性。
打开封面
下载高清视频
观看高清视频
视频下载器
基于多目标渐进聚类的半监督说话人识别域自适应
利用基于帧级跨模态注意力的音视频Confomer的鲁棒音视频唤醒词识别
浙大清华发布语音伪造检测框架SafeEar,内容隐私保护,语音造假无处遁形
通过特征解纠缠技术进行跨城市和设备的声学场景分类
通过扬声器提示调优和适配器表示的双参数高效微调【香港理工大学】
SlideSpeech:大规模幻灯片丰富的语音-视频语料库
一个使用单事件声音的详细的音频-文本数据模拟管道
仅需40个Token,高质量重建音频
【ICASSP】加入预训练模型的半监督声音事件检测
基于无监督学习的端到端无分层生成固定滤波器主动噪声控制
【清华】从0开始学Kaldi,丝滑入门语音识别,语音识别原来如此简单
ESPnet-SE开源工具介绍-钱彦旻 上海交通大学
PromptVC:基于自然语言提示的潜在空间灵活风格语音转换
开源语音识别工具WeNet,从入门到精通
关于AI语音圈的顶会的ICASSP,你需要知道……
圆桌:音频与大模型(欧智坚 何磊 钱彦旻 易江燕 栾剑 张超)
ModelScope语音开源现状和语音语义多模态大模型研究进展 张仕良
【语音合成】什么是语音合成?
DualVC 2:用于统一流式与非流式语音转换的动态掩码卷积
具有目标说话人吸引子的端到端神经说话人分类的基于注意力的编解码器网络
基于音频辨别的对比学习在连续语音中的可定制关键词检测
MISP 2023挑战中视听目标扬声器提取的XMUSPEECH系统
【实操】通过NVIDIA NEMO 训练语音AI模型(上)
【音乐与音频处理】什么是音乐理解?卡耐基梅隆大学 罗杰·B·丹嫩贝格(Roger-B.DANNENBERG)
BS-PLCNet:基于多任务学习和多判别器的频带分解丢包隐藏网络
面向通用语音离散标记:ASR和TTS的一个案例研究
基于热词短语预测网络的热词语音识别
用于语音情感识别的多尺度时空Transformer模型
【音乐与音频处理】在学术计算规模上再现大型预训练语音模型-Shinji-WATANABE
一次性敏感度感知混合稀疏性剪枝技术在大规模语言模型中的应用
ICASSP 2023 E-Prevention竞赛分享基于可穿戴设备数据的用户身份识别系统
基于序列胶囊网络的语音情感识别
【聘】北京快鱼电子 声纹算法工程师 北京 上市公司
【语音之家】AI技术沙龙-声纹识别
Discussion:生成音频AI和研究社区、艺术产业 、公众.mp4
一种端到端脑电图通道选择的脑辅助语音增强方法
Trimtail:语音识别延迟优化中的暴利美学
说话人日志与语音识别的多层联合推理
面向神经声码器训练的一种合成语料生成方法
【音乐与音频处理】MERT:具有大规模自监督训练的原声音乐理解模型-付杰(Jie-FU)