V
主页
基于伪孪生网络的音色保留的说话人识别黑盒对抗攻击
发布人
本文提出了一种用于说话人识别的音色保留的对抗性攻击方法,不仅可以利用声纹模型的弱点,还可以在黑盒攻击条件下保留目标说话人的音色。具体来说,我们通过在语音转换模型的训练过程中添加一个对抗性约束条件来生成保留目标说话人音色的假音频。我们利用一个伪孪生网络结构从黑盒声纹模型中学习,同时约束内在相似性和结构相似性。内在相似性损失是为了学习内在的不变性,而结构相似性损失是为了确保替代的声纹模型与固定的黑盒声纹模型共享相似的决策边界。替代模型用来生成保留音色的假音频进行攻击。在Audio Deepfake Detection Challenge 2022(ADD 2022)数据集上的实验结果表明,我们提出的方法在白盒和黑盒场景下的攻击成功率分别高达60.58%和55.38%,并且可以同时欺骗人类和机器。
打开封面
下载高清视频
观看高清视频
视频下载器
说话人识别模型的可解释性-王东
Xi-vector嵌入空间中的说话人识别与表征
鲁棒说话人识别高级池化方法-MAK Man-Wai
【清华】从0开始学Kaldi,丝滑入门语音识别,语音识别原来如此简单
基于语音识别预训练的说话人识别方法
深伪音频鉴别研究进展
深度生成固定滤波器的有源噪声控制
基于距离的权重转移,用于从近场到远场的说话人验证模型的微调
说话人分割聚类研究进展与展望
基于共振峰和基频缩放的可区分说话人匿名化
特定人合成及变声与录音回放语音攻击检测
用于大规模说话人验证的动态全连接层
对抗噪声标签的鲁棒说话人识别
声纹识别与语音防伪技术前沿及工作进展
基于自监督学习的高性能鲁棒说话人识别-钱彦旻
基于深度聚类和图网络的声纹识别-何亮、许敏强
基于预训练的伪造语音检测研究进展-张鹏远
基于角空间中类感知注意机制对比学习的区分性说话人表征
声纹识别工具ASV-Subtools-江涛
鲁棒说话人识别中的深度伪造与迁移学习-谢磊
基于SepFormer的交叉注意力音视频目标说话人语音提取方法
基于多目标渐进聚类的半监督说话人识别域自适应
基于多任务学习保留背景音的语音转换
基于自然语言描述的跨说话人语音风格转换
噪声与远场环境下的声纹识别
面向文本无关说话人识别的跨模态视听协同学习
DSE-TTS:面向跨语言语音合成的双说话人嵌入
标签噪声干扰下的说话人识别关键技术研究
交互式AI中语音技术实践与探索-万玉龙
通过扬声器提示调优和适配器表示的双参数高效微调【香港理工大学】
Whisper终结者:Reverb ASR 语音识别和说话人分离方面新标杆 在前所未有的20万小时人工转录数据上进行训练 支持可定制的逐字转录
针对部分篡改音频的波形边界检测系统
基于数据增强的语音编辑改进ASR中的代码转换和命名实体识别
开源语音识别工具wenet 简介 张彬彬
Muzic:建立一个多才多艺的音乐人工智能助手-谭旭(Xu-TAN)
应用于全带残余回声抑制的两步频带分割神经网络方法
在基于多因素约束的低资源语音转换中传递源语音说话风格
【ICASSP】超短注册时间的目标说话人提取模型
【声纹识别】什么是声纹识别?声纹识别发展历程怎样?
基于ControlVAE和扩散桥的语音合成可解释风格转换