V
主页
京东 11.11 红包
ReFlow-TTS:一个用于高保真的文本到语音的校正流模型
发布人
扩散模型在语音合成任务中表现出了优异的性能。然而,它的有效性是以大量采样步骤为代价的,这导致合成高质量语音所需的采样时间过长。这也阻碍了它在现实场景中的实际应用。在本文中,我们介绍了ReFlow-TTS,这是一种新的基于rectified flow的高保真语音合成方法。具体来说,我们的ReFlow-TTS是一个常微分方程(ODE)模型,它尽可能以直线路径将高斯分布传输到真实的Mel谱图分布。此外,我们提出的方法能够用单个采样步骤实现高质量的语音合成,并消除了训练教师模型的需要。我们在LJSpeech数据集上的实验表明,与其他基于扩散的模型相比,我们的ReFlow-TTS方法实现了最佳性能。与现有的一步TTS模型相比,具有一步采样的ReFlow-TTS实现了具有竞争力的性能。
打开封面
下载高清视频
观看高清视频
视频下载器
通过扬声器提示调优和适配器表示的双参数高效微调【香港理工大学】
震惊到我!AI文本转语音居然这么像真人!用来做配音简直逆天!AI一键文本转语音 ChatTTS 离线版
2022年声纹识别研究与应用学术研讨会
【语音之家】 AI技术沙龙- -语音合成
利用唤醒词参考语音的高效个人语音活动检测
通过特征解纠缠技术进行跨城市和设备的声学场景分类
入门语音合成,听这个课真的可以哦
VoiceFlow:高效的文本到语音的纠正流量匹配
VoxBlink:短视频上的大规模说话人验证数据集
【ICASSP2024】基于记忆感知和Seq2Seq架构的说话人日志系统
【声纹识别】什么是声纹识别?声纹识别发展历程怎样?
基于自然语言描述的跨说话人语音风格转换
端到端语音到语音翻译中的零样本风格迁移
基于热词短语预测网络的热词语音识别
车圈最大AI「黑马」吉利 闯入语音合成大模型赛道 自研语音大模型登顶 性能超SOTA 10% 跨语种无缝切换 车车再也不是听不懂方言的人工智障了呢
利用基于熵的融合以及基于剪枝的网络架构优化改进多模态情感识别
仅需40个Token,高质量重建音频
用于实时多通道语音增强的因果U-Net神经波束形成网络
郭德纲讲galgame——Rewrite
基于ControlVAE和扩散桥的语音合成可解释风格转换
基于混合预测编码与知识蒸馏的双模语音转换模型
【雷军】听说AI语音包很火?
RaD-Net:一种用于语音信号改善的修复与降噪网络
面向通用语音离散标记:ASR和TTS的一个案例研究
SELM:基于离散标记和语言模型的语音增强方法
基于新一代kaldi项目的语音识别应用实例-郭理勇 小米
“你好,我是贾维斯,永远待命,sir”一个Python打造的跨平台智能语音助手,可实现打开应用程序、搜索信息、播放音乐、截图等
利用基于帧级跨模态注意力的音视频Confomer的鲁棒音视频唤醒词识别
基于多级域适配器的鲁棒跨域说话人验证技术
ICASSP 2023 论文预讲会 第一期 清华大学语音与音频技术实验室专场
【开源数据集】面向动态声学场景语音增强与声源定位任务的麦克风阵列音频数据集
声纹识别工具ASV-Subtools-江涛
基于多任务学习保留背景音的语音转换
ICASSP 2023 论文预讲会 第六期 新加坡南洋理工大学语音实验室专场(DSP Lab)
深度生成固定滤波器的有源噪声控制
TDT-KWS:基于标记和持续时间转换器的快速精准关键词检测系统
AI语音面试常见问题:端到端模型与传统模型的区别
1MB内存下移动说话人验证系统的极低比特量化
ChatGPT对口语理解的鲁棒性如何?
语音合成中的情感建模研究