基于混合预测编码与知识蒸馏的双模语音转换模型

发布人

随着语音转换技术逐渐流行，越来越多的实时应用需要模型具有流式转换能力。与典型的（非流式）语音转换不同，流式语音转换无法利用音频中完整的上下文特征。由于未来信息的缺失，流式语音转换面临着巨大的挑战，表现在可懂度、说话人相似度和声质下降。为了应对这一挑战，我们提出了DualVC，一种双模语音转换方法，使用联合训练的独立网络参数同时支持流式和非流式模式。此外，我们引入了模型内知识蒸馏和混合预测编码（HPC），以提高流式转换的性能。此外，我们结合了数据增强来训练一个噪声鲁棒的自回归解码器，提高了该模型在长语音转换中的性能。实验结果表明，所提出的模型在流式语音转换场景下优于基线模型，同时与利用完整上下文特征的非流式系统保持相当的性能，且延迟仅有252.8毫秒。

打开封面下载高清视频观看高清视频视频下载器

基于混合预测编码与知识蒸馏的双模语音转换模型

多通道、多人及非基于声纹编码向量的特定人语音抽取-李明

通过NVIDIA NEMO 训练语音AI模型（下）

交互式AI中语音技术实践与探索-万玉龙

基于跨模态对齐的从语音到歌声转换-李瑞琪 火山语音

基于多通道时空特征和知识蒸馏的鲁棒目标说话人提取研究

ReFlow-TTS：一个用于高保真的文本到语音的校正流模型

基于新一代kaldi项目的语音识别应用实例-郭理勇 小米

基于距离的权重转移，用于从近场到远场的说话人验证模型的微调

跨语种的语音转换-武执正

【语音识别】声学特征提取

如何工程化一个语音开源项目： 手把手带你实现开源声纹分割聚类项目 pyannote-audio 的工程化

Amphion-开源的音频 、音乐和语音生成工具包-武执政

Sherpa:新一代 Kaldi 部署框架

基于多任务学习保留背景音的语音转换

基于ControlVAE和扩散桥的语音合成可解释风格转换

【声纹识别】什么是声纹识别？声纹识别发展历程怎样？

基于自然语言描述的跨说话人语音风格转换

【语音识别】语音的采样与量化

音乐AI：如何闭合理解和创造的循环-夏光宇(Gus-XIA)

VISinger：高保真端到端歌声合成模型

利用唤醒词参考语音的高效个人语音活动检测

音频生成-王文武

西工大ASLP实验室语音生成模型新进展-西北工业大学谢磊老师

一种端到端脑电图通道选择的脑辅助语音增强方法

多语言和代码转换语音识别的语言路由专家混合

将子词发音与唇形联合嵌入感知视听语音增强

2022年声纹识别研究与应用学术研讨会

基于数据增强的语音编辑改进ASR中的代码转换和命名实体识别

面向有声读物合成的上下文感知连贯性说话风格预测方法

圆桌：语音开源技术 张仕良 张彬彬 康魏

【Wenet语音识别】功能架构和模型结构

文本到音频的生成:技术和应用-刘豪赫(Haohe LIU)

ModelScope语音开源现状和语音语义多模态大模型研究进展 张仕良

少走99%的弯路！0基础快速入门语音识别

SlideSpeech：大规模幻灯片丰富的语音-视频语料库

PromptVC：基于自然语言提示的潜在空间灵活风格语音转换

2021年声纹识别研究与应用学术研讨会

【ICASSP】面向视频编码的畸变感知的神经网络插值滤波器

基于前后端联合训练的鲁棒伪造语音检测系统

域移下异常声音检测的分层元数据信息约束自监督学习

基于跨模态对齐的从语音到歌声转换-李瑞琪火山语音

基于新一代kaldi项目的语音识别应用实例-郭理勇小米

如何工程化一个语音开源项目：手把手带你实现开源声纹分割聚类项目 pyannote-audio 的工程化

Amphion-开源的音频、音乐和语音生成工具包-武执政

圆桌：语音开源技术张仕良张彬彬康魏

ModelScope语音开源现状和语音语义多模态大模型研究进展张仕良