V
主页
LightGrad:基于DDPM的轻量化语音合成声学模型
发布人
打开封面
下载高清视频
观看高清视频
视频下载器
Sherpa:新一代 Kaldi 部署框架
开源语音识别工具wenet 简介 张彬彬
说话人识别模型的可解释性-王东
ModelScope魔搭社区及其开源的语音AI模型
自定义语音唤醒中的关键词自适应声学模型剪枝
【语音之家】 AI技术沙龙- -语音合成
基于ControlVAE和扩散桥的语音合成可解释风格转换
特定人合成及变声与录音回放语音攻击检测
DSE-TTS:面向跨语言语音合成的双说话人嵌入
ModelScope语音开源现状和语音语义多模态大模型研究进展 张仕良
声纹识别工具ASV-Subtools-江涛
用于语音情感识别的多尺度时空Transformer模型
【语音合成】声学模型数据(试听)
基于自然语言描述的跨说话人语音风格转换
VISinger:高保真端到端歌声合成模型
Discussion:生成音频AI和研究社区、艺术产业 、公众.mp4
OpenAl:从Transformer的历史中塑造人工智能的未来
【ICASSP】超短注册时间的目标说话人提取模型
交互式AI中语音技术实践与探索-万玉龙
复杂场景下鲁棒伪造音检测及变声溯源-李明
基于多任务学习的异常感知的内群点建模及多尺度的异常值打分
腾讯会议的实时音频技术介绍和展望 腾讯天籁实验室 余涛
噪声与远场环境下的声纹识别
kaldi之父 Daniel-Povey:Next-Gen Kaldi: Status and Near-term Plans
基于角空间中类感知注意机制对比学习的区分性说话人表征
UniSplice:面向低资源ASR的通用跨语言数据拼接
MARBLE:通用评价的音乐音频表现基准-马英浩(Yinghao-MA)
INTERSPEECH 2023 论文预讲会 第一期 清华大学&新疆大学专场
ReFlow-TTS:一个用于高保真的文本到语音的校正流模型
适应多语言ASR模型,以处理多个说话人
【清华】从0开始学Kaldi,丝滑入门语音识别,语音识别原来如此简单
西工大-大象声科个性化语音增强系统
基于伪孪生网络的音色保留的说话人识别黑盒对抗攻击
基于随机分类器的小样本类别增量音频分类
基于注意力融合瓶颈与扰动特征的高表现力语音转换模型
基于跨模态对齐的从语音到歌声转换-李瑞琪 火山语音
用于多通道语音分离的声源二维位置感知全神经波束模型
民主化音乐?音乐AI的政治经济学-黄儒菁(Rujing-Stacy-HUANG)
通过NVIDIA NEMO 训练语音AI模型(下)
音乐AI:如何闭合理解和创造的循环-夏光宇(Gus-XIA)