LightGrad：基于DDPM的轻量化语音合成声学模型 - 视频下载 Video Downloader

LightGrad：基于DDPM的轻量化语音合成声学模型

发布人

打开封面下载高清视频观看高清视频视频下载器

Sherpa:新一代 Kaldi 部署框架

开源语音识别工具wenet 简介张彬彬

说话人识别模型的可解释性-王东

ModelScope魔搭社区及其开源的语音AI模型

自定义语音唤醒中的关键词自适应声学模型剪枝

【语音之家】 AI技术沙龙- -语音合成

基于ControlVAE和扩散桥的语音合成可解释风格转换

特定人合成及变声与录音回放语音攻击检测

DSE-TTS:面向跨语言语音合成的双说话人嵌入

ModelScope语音开源现状和语音语义多模态大模型研究进展张仕良

声纹识别工具ASV-Subtools-江涛

用于语音情感识别的多尺度时空Transformer模型

【语音合成】声学模型数据（试听）

基于自然语言描述的跨说话人语音风格转换

VISinger：高保真端到端歌声合成模型

Discussion：生成音频AI和研究社区、艺术产业、公众.mp4

OpenAl：从Transformer的历史中塑造人工智能的未来

【ICASSP】超短注册时间的目标说话人提取模型

交互式AI中语音技术实践与探索-万玉龙

复杂场景下鲁棒伪造音检测及变声溯源-李明

基于多任务学习的异常感知的内群点建模及多尺度的异常值打分

腾讯会议的实时音频技术介绍和展望腾讯天籁实验室余涛

噪声与远场环境下的声纹识别

kaldi之父 Daniel-Povey：Next-Gen Kaldi: Status and Near-term Plans

基于角空间中类感知注意机制对比学习的区分性说话人表征

UniSplice:面向低资源ASR的通用跨语言数据拼接

MARBLE:通用评价的音乐音频表现基准-马英浩(Yinghao-MA)

INTERSPEECH 2023 论文预讲会第一期清华大学&新疆大学专场

ReFlow-TTS：一个用于高保真的文本到语音的校正流模型

适应多语言ASR模型，以处理多个说话人

【清华】从0开始学Kaldi，丝滑入门语音识别，语音识别原来如此简单

西工大-大象声科个性化语音增强系统

基于伪孪生网络的音色保留的说话人识别黑盒对抗攻击

基于随机分类器的小样本类别增量音频分类

基于注意力融合瓶颈与扰动特征的高表现力语音转换模型

基于跨模态对齐的从语音到歌声转换-李瑞琪火山语音

用于多通道语音分离的声源二维位置感知全神经波束模型

民主化音乐?音乐AI的政治经济学-黄儒菁(Rujing-Stacy-HUANG)

通过NVIDIA NEMO 训练语音AI模型（下）

音乐AI：如何闭合理解和创造的循环-夏光宇(Gus-XIA)