DualVC 2：用于统一流式与非流式语音转换的动态掩码卷积

发布人

报告题目：DualVC 2: Dynamic Masked Convolution For Unified Streaming And Non-Streaming Voice Conversion
 
完整版：https://umtue.xetlk.com/s/4wDoyR

报告摘要： 随着语音转换（VC）的逐渐流行，越来越多的应用场景需要具有流式推理能力的模型。我们先前提出的 DualVC 试图通过流式模型架构设计和模型内知识蒸馏以及混合预测编码来弥补未来信息的不足，从而实现这一目标。然而DualVC 存在以下几个问题。首先，自回归解码器具有误差累积的特性，也限制了推理速度。其次，因果卷积实现了流式推理能力，但无法充分使用chunk内的未来信息。第三，该模型无法有效处理无人声段中的噪声，从而降低了整体音质。为此，本文提出了 DualVC 2 来解决这些问题。具体来说，我们将模型主干结构迁移到基于 Conformer 的架构上，从而实现并行推理。以带有动态chunk掩码的非因果卷积取代因果卷积，更好地利用块内的未来信息。此外还引入了安静注意力（quite attention）机制，以增强模型的噪声鲁棒性。实验表明，DualVC 2 在主观和客观指标上均优于 DualVC 和其他基线系统，延迟时间仅为 186.4 毫秒。

打开封面下载高清视频观看高清视频视频下载器

DualVC 2：用于统一流式与非流式语音转换的动态掩码卷积

基于音频辨别的对比学习在连续语音中的可定制关键词检测

【语音识别】声学特征提取

RaD-Net：一种用于语音信号改善的修复与降噪网络

Whisper终结者：Reverb ASR 语音识别和说话人分离方面新标杆 在前所未有的20万小时人工转录数据上进行训练 支持可定制的逐字转录

基于多目标渐进聚类的半监督说话人识别域自适应

域移下异常声音检测的分层元数据信息约束自监督学习

浙大清华发布语音伪造检测框架SafeEar，内容隐私保护，语音造假无处遁形

TF-SepNet：一种用于低复杂度声学场景分类的卷积神经网络中的高效一维核设计

基于跨模态对齐的从语音到歌声转换-李瑞琪 火山语音

SELM：基于离散标记和语言模型的语音增强方法

基于混合预测编码与知识蒸馏的双模语音转换模型

跨语种的语音转换-武执正

基于多任务学习保留背景音的语音转换

多通道、多人及非基于声纹编码向量的特定人语音抽取-李明

通过扬声器提示调优和适配器表示的双参数高效微调【香港理工大学】

通过NVIDIA NEMO 训练语音AI模型（下）

交互式AI中语音技术实践与探索-万玉龙

世界杯无障碍字幕直播间背后的流式语音技术 火山语音

基于热词短语预测网络的热词语音识别

基于多通道时空特征和知识蒸馏的鲁棒目标说话人提取研究

ModelScope语音开源现状和语音语义多模态大模型研究进展 张仕良

ESPnet-SE开源工具介绍-钱彦旻 上海交通大学

Sherpa:新一代 Kaldi 部署框架

【荐】已经开到第四期了，端到端语音识别好课，新增语音大模型内容

超划算的语音课程，确定不来了解下？

基于多级域适配器的鲁棒跨域说话人验证技术

自动音频字幕的图形注意事项

【清华】从0开始学Kaldi，丝滑入门语音识别，语音识别原来如此简单

在说话人验证中识别基于语音转换欺诈攻击的源说话人

【音乐与音频处理】什么是音乐理解？卡耐基梅隆大学 罗杰·B·丹嫩贝格（Roger-B.DANNENBERG）

声纹识别工具ASV-Subtools-江涛

震惊到我！AI文本转语音居然这么像真人！用来做配音简直逆天！AI一键文本转语音 ChatTTS 离线版

说话人日志与语音识别的多层联合推理

面向神经声码器训练的一种合成语料生成方法

VISinger：高保真端到端歌声合成模型

AI语音面试常见问题：语音是怎么来的？

圆桌：语音开源技术 张仕良 张彬彬 康魏

Muzic:建立一个多才多艺的音乐人工智能助手-谭旭(Xu-TAN)

关于AI语音圈的顶会的ICASSP，你需要知道……

【音乐与音频处理】ESPnet-Muskits及其与LLM的扩展-史嘉彤(Jiatong-SHI)

Whisper终结者：Reverb ASR 语音识别和说话人分离方面新标杆在前所未有的20万小时人工转录数据上进行训练支持可定制的逐字转录

基于跨模态对齐的从语音到歌声转换-李瑞琪火山语音

世界杯无障碍字幕直播间背后的流式语音技术火山语音

ModelScope语音开源现状和语音语义多模态大模型研究进展张仕良

ESPnet-SE开源工具介绍-钱彦旻上海交通大学

【音乐与音频处理】什么是音乐理解？卡耐基梅隆大学罗杰·B·丹嫩贝格（Roger-B.DANNENBERG）

圆桌：语音开源技术张仕良张彬彬康魏