V
主页
民主化音乐?音乐AI的政治经济学-黄儒菁(Rujing-Stacy-HUANG)
发布人
打开封面
下载高清视频
观看高清视频
视频下载器
Muzic:建立一个多才多艺的音乐人工智能助手-谭旭(Xu-TAN)
Sherpa:新一代 Kaldi 部署框架
【音乐与音频处理】ESPnet-Muskits及其与LLM的扩展-史嘉彤(Jiatong-SHI)
音频生成-王文武
【音乐与音频处理】什么是音乐理解?卡耐基梅隆大学 罗杰·B·丹嫩贝格(Roger-B.DANNENBERG)
端到端语音到语音翻译中的零样本风格迁移
【语音之家】AI产业沙龙—腾讯AI Lab语音技术进展分享报告
文本到音频的生成:技术和应用-刘豪赫(Haohe LIU)
基于距离的权重转移,用于从近场到远场的说话人验证模型的微调
【语音之家】AI产业沙龙——智能对话平台
【实操】通过NVIDIA NEMO 训练语音AI模型(上)
【语音识别】声学特征提取
【语音之家】AI产业沙龙——语音&音乐技术在字节跳动平台的应用
具有目标说话人吸引子的端到端神经说话人分类的基于注意力的编解码器网络
低资源小语种自动语音识别:清华THUEE队伍在OpenASR20的系统描述
基于语音噪声双流谱改善网络使用语音失真损失函数的鲁棒语音识别
多说话人交互场景中的目标说话人提取
kaldi之父 Daniel-Povey:Next-Gen Kaldi: Status and Near-term Plans
声纹识别可视化研究分析
VISinger:高保真端到端歌声合成模型
【语音之家公开课】音频-文本跨模态翻译 Audio-Text Cross Modal Translation
西工大ASLP实验室语音生成模型新进展-西北工业大学谢磊老师
Panel :语音技术新时代
跨语种的语音转换-武执正
OpenAl:从Transformer的历史中塑造人工智能的未来
基于混合预测编码与知识蒸馏的双模语音转换模型
基于ControlVAE和扩散桥的语音合成可解释风格转换
多语言和代码转换语音识别的语言路由专家混合
通过NVIDIA NEMO 训练语音AI模型(下)
低延迟非自回归语音识别方法
基于鼾声的睡眠体位识别(数据集)
面向表现力语音合成的多尺度风格建模与生成-吴志勇
【语音之家】AI产业沙龙 —解读火山语音团队在国际顶会ACL2023的创新突破
【ICASSP】加入预训练模型的半监督声音事件检测
用于大规模说话人验证的动态全连接层
应用于全带残余回声抑制的两步频带分割神经网络方法
【大模型】认知导向的视听觉大语言模型
用于声学信号内容理解的机器学习算法前瞻 -李圣辰 -西交利物浦大学
用对比学习增强流式与非流式模型
一种基于扩散模型(LDM)的风格语音转换方法 论文推荐