V
主页
基于混合预测编码与知识蒸馏的双模语音转换模型
发布人
随着语音转换技术逐渐流行,越来越多的实时应用需要模型具有流式转换能力。与典型的(非流式)语音转换不同,流式语音转换无法利用音频中完整的上下文特征。由于未来信息的缺失,流式语音转换面临着巨大的挑战,表现在可懂度、说话人相似度和声质下降。为了应对这一挑战,我们提出了DualVC,一种双模语音转换方法,使用联合训练的独立网络参数同时支持流式和非流式模式。此外,我们引入了模型内知识蒸馏和混合预测编码(HPC),以提高流式转换的性能。此外,我们结合了数据增强来训练一个噪声鲁棒的自回归解码器,提高了该模型在长语音转换中的性能。实验结果表明,所提出的模型在流式语音转换场景下优于基线模型,同时与利用完整上下文特征的非流式系统保持相当的性能,且延迟仅有252.8毫秒。
打开封面
下载高清视频
观看高清视频
视频下载器
多通道、多人及非基于声纹编码向量的特定人语音抽取-李明
通过NVIDIA NEMO 训练语音AI模型(下)
交互式AI中语音技术实践与探索-万玉龙
基于跨模态对齐的从语音到歌声转换-李瑞琪 火山语音
基于多通道时空特征和知识蒸馏的鲁棒目标说话人提取研究
ReFlow-TTS:一个用于高保真的文本到语音的校正流模型
基于新一代kaldi项目的语音识别应用实例-郭理勇 小米
基于距离的权重转移,用于从近场到远场的说话人验证模型的微调
跨语种的语音转换-武执正
【语音识别】声学特征提取
如何工程化一个语音开源项目: 手把手带你实现开源声纹分割聚类项目 pyannote-audio 的工程化
Amphion-开源的音频 、音乐和语音生成工具包-武执政
Sherpa:新一代 Kaldi 部署框架
基于多任务学习保留背景音的语音转换
基于ControlVAE和扩散桥的语音合成可解释风格转换
【声纹识别】什么是声纹识别?声纹识别发展历程怎样?
基于自然语言描述的跨说话人语音风格转换
【语音识别】语音的采样与量化
音乐AI:如何闭合理解和创造的循环-夏光宇(Gus-XIA)
VISinger:高保真端到端歌声合成模型
利用唤醒词参考语音的高效个人语音活动检测
音频生成-王文武
西工大ASLP实验室语音生成模型新进展-西北工业大学谢磊老师
一种端到端脑电图通道选择的脑辅助语音增强方法
多语言和代码转换语音识别的语言路由专家混合
将子词发音与唇形联合嵌入感知视听语音增强
2022年声纹识别研究与应用学术研讨会
基于数据增强的语音编辑改进ASR中的代码转换和命名实体识别
面向有声读物合成的上下文感知连贯性说话风格预测方法
圆桌:语音开源技术 张仕良 张彬彬 康魏
【Wenet语音识别】功能架构和模型结构
文本到音频的生成:技术和应用-刘豪赫(Haohe LIU)
ModelScope语音开源现状和语音语义多模态大模型研究进展 张仕良
少走99%的弯路!0基础快速入门语音识别
SlideSpeech:大规模幻灯片丰富的语音-视频语料库
PromptVC:基于自然语言提示的潜在空间灵活风格语音转换
2021年声纹识别研究与应用学术研讨会
【ICASSP】面向视频编码的畸变感知的神经网络插值滤波器
基于前后端联合训练的鲁棒伪造语音检测系统
域移下异常声音检测的分层元数据信息约束自监督学习