V
主页
【语音之家公开课】表现力语音与歌唱合成
发布人
打开封面
下载高清视频
观看高清视频
视频下载器
【语音之家】 AI技术沙龙- -语音合成
基于自然语言描述的跨说话人语音风格转换
如何工程化一个语音开源项目: 手把手带你实现开源声纹分割聚类项目 pyannote-audio 的工程化
利用位置相关的局部-全局依赖进行合成语音检测
基于新一代kaldi项目的语音识别应用实例-郭理勇 小米
ICASSP 2023 论文预讲会 第七期 西北工业大学音频语音与语言处理研究组(NPU-ASLP)专场(上)
圆桌:音频与大模型(欧智坚 何磊 钱彦旻 易江燕 栾剑 张超)
【语音之家公开课】多说话人语音识别的前沿进展
基于SepFormer的交叉注意力音视频目标说话人语音提取方法
端到端语音到语音翻译中的零样本风格迁移
基于平行语料的可逆变声
VISinger:高保真端到端歌声合成模型
什么是语音信号?
基于ControlVAE和扩散桥的语音合成可解释风格转换
利用语音和双语文本联合预训练的语音到语音翻译模型
基于距离的权重转移,用于从近场到远场的说话人验证模型的微调
【音乐与音频处理】在学术计算规模上再现大型预训练语音模型-Shinji-WATANABE
基于注意力融合瓶颈与扰动特征的高表现力语音转换模型
2022年声纹识别研究与应用学术研讨会
西工大-大象声科个性化语音增强系统
基于语音噪声双流谱改善网络使用语音失真损失函数的鲁棒语音识别
ICASSP 2023 论文预讲会 第四期 昆山杜克大学语音及多模态智能信息处理实验室专场 (SMIIPLab)
开源语音和 wenet-e2e 社区
【台大李宏毅】公开课 迈向语音版ChatGPT
基于音频辨别的对比学习在连续语音中的可定制关键词检测
陈果果 语音识别的发展: A Dataset and Benchmark Perspective【语音之家公开课】
ModelScope魔搭社区及其开源的语音AI模型
语音AIGC技术进展-音频技术在喜马拉雅的研发和落地应用-卢恒
语音合成中的情感建模研究
针对病理性发音的语音技术研究进展 秦勇 南开大学
语音识别基础:从声音到语音
【语音之家公开课】神经语言生成:从自监督表示学习到多模态语境化
提升Conformer-Transducer ASR系统的语音辅助多目标单元建模
对标OpenAI高级语音【Her】 开源实时多模态AI聊天机器人Moshi,语音对话延迟低至200毫秒!67页技术报告全公开 AI大神Karpathy盛赞
Daniel Povey|Zipformer:一种改进的语音识别编码器
京东在监督对比学习语音识别中的实践
超划算的语音课程,确定不来了解下?
结合视觉信息的端到端语音翻译-任意 火山语音
面向有声读物合成的上下文感知连贯性说话风格预测方法
TFCNet:用于语音分离的时频域校正网络