V
主页
基于多级域适配器的鲁棒跨域说话人验证技术
发布人
报告题目:Robust Cross-Domain Speaker Verification with Multi-Level Domain Adapters 完整版:https://umtue.xetlk.com/s/2Ua42 报告摘要: 说话人验证在面对多样化领域数据时会遇到巨大挑战,常常因为领域不匹配导致性能下降。为了在跨领域场景中提高性能,我们引入了域适配器,这是一个为特定领域设计的可适应模块。该模块学习并整合领域特定信息与说话人相关数据,减少领域相关的变化并促进来自同一说话人在不同领域中的话语嵌入的融合。它可以在模型的在多个层次上配置,并能适应于各种骨干架构。我们提出的模块在极小的参数增量下显著增强了跨领域性能,同时有效地泛化到以前未见过的领域。在实验中,我们展示了在3D-Speaker数据集上的结果,该数据集提供了对领域分类和随后的领域信息学习至关重要的声学相关属性。与基线相比,集成了域适配器的最佳系统在三个3D-Speaker数据集试验中分别实现了10.8%、14.8%和21.1%的等错误率(EER)提升。
打开封面
下载高清视频
观看高清视频
视频下载器
跨多种阵列拓扑结构的多通道语音识别自动通道选择与空间特征集成
【语音识别】声学特征提取
基于平行语料的可逆变声
Sherpa:新一代 Kaldi 部署框架
通过扬声器提示调优和适配器表示的双参数高效微调【香港理工大学】
声纹识别工具ASV-Subtools-江涛
利用基于帧级跨模态注意力的音视频Confomer的鲁棒音视频唤醒词识别
圆桌:语音开源技术 张仕良 张彬彬 康魏
浙大清华发布语音伪造检测框架SafeEar,内容隐私保护,语音造假无处遁形
通过特征解纠缠技术进行跨城市和设备的声学场景分类
基于角空间中类感知注意机制对比学习的区分性说话人表征
【荐】已经开到第四期了,端到端语音识别好课,新增语音大模型内容
PromptVC:基于自然语言提示的潜在空间灵活风格语音转换
面向表现力语音合成的多尺度风格建模与生成-吴志勇
说话人识别模型的可解释性-王东
非对称干净片段引导的自监督学习用于声纹识别
音频生成-王文武
基于多目标渐进聚类的半监督说话人识别域自适应
鲁棒说话人表征技术
利用基于熵的融合以及基于剪枝的网络架构优化改进多模态情感识别
关于AI语音圈的顶会的ICASSP,你需要知道……
西工大ASLP实验室语音生成模型新进展-西北工业大学谢磊老师
说话人识别中的Hard Trials初步探索
【声纹识别入门】ASV-Subtools工具 特征提取
【秒懂】语音识别是什么
【ICASSP】加入预训练模型的半监督声音事件检测
BS-PLCNet:基于多任务学习和多判别器的频带分解丢包隐藏网络
一种端到端脑电图通道选择的脑辅助语音增强方法
开源语音识别工具WeNet,从入门到精通
【语音合成】什么是语音合成?
基于conformer的热词增强方法
MARBLE:通用评价的音乐音频表现基准-马英浩(Yinghao-MA)
语音识别基础:从声音到语音
鲁棒说话人识别中的深度伪造与迁移学习-谢磊
基于热词短语预测网络的热词语音识别
音乐和音频数据的学习方法-Emmanouil-BENETOS
Xi-vector嵌入空间中的说话人识别与表征
基于跨模态对齐的从语音到歌声转换-李瑞琪 火山语音
自动音频字幕的图形注意事项
基于语音识别预训练的说话人识别方法