V
主页
利用语音和双语文本联合预训练的语音到语音翻译模型
发布人
打开封面
下载高清视频
观看高清视频
视频下载器
【语音之家】AI产业沙龙——智能对话平台
【语音之家】AI产业沙龙—腾讯AI Lab语音技术进展分享报告
基于距离的权重转移,用于从近场到远场的说话人验证模型的微调
基于语音噪声双流谱改善网络使用语音失真损失函数的鲁棒语音识别
端到端语音到语音翻译中的零样本风格迁移
【语音之家公开课】表现力语音与歌唱合成
文本到音频的生成:技术和应用-刘豪赫(Haohe LIU)
复杂声学场景下基于复数谱的语音增强和去混技术研究
基于跨模态对齐的从语音到歌声转换-李瑞琪 火山语音
Panel :语音技术新时代
【语音之家】AI产业沙龙—京东在AI语音方向的技术探索与实践
【ICASSP】加入预训练模型的半监督声音事件检测
Sherpa:新一代 Kaldi 部署框架
基于注意力融合瓶颈与扰动特征的高表现力语音转换模型
ICASSP 2023 论文预讲会 第四期 昆山杜克大学语音及多模态智能信息处理实验室专场 (SMIIPLab)
特定人合成及变声与录音回放语音攻击检测
【语音之家】AI产业沙龙 —— 三星语言智能团队ICASSP2023论文分享会
【语音之家公开课】多说话人语音识别的前沿进展
【Wenet语音识别】功能架构和模型结构
【语音之家】AI产业沙龙—语音技术在国音智能的应用
【语音之家】 AI技术沙龙- -语音合成
应用于全带残余回声抑制的两步频带分割神经网络方法
自定义语音唤醒中的关键词自适应声学模型剪枝
基于多任务学习保留背景音的语音转换
1MB内存下移动说话人验证系统的极低比特量化
基于SepFormer的交叉注意力音视频目标说话人语音提取方法
面向L3DAS23挑战赛的通道流注意力机制网络
ReFlow-TTS:一个用于高保真的文本到语音的校正流模型
ICASSP 2023 论文预讲会 第七期 西北工业大学音频语音与语言处理研究组(NPU-ASLP)专场(上)
多说话人交互场景中的目标说话人提取
提升Conformer-Transducer ASR系统的语音辅助多目标单元建模
用于实时多通道语音增强的因果U-Net神经波束形成网络
基于预训练的伪造语音检测研究进展-张鹏远
Whisper终结者:Reverb ASR 语音识别和说话人分离方面新标杆 在前所未有的20万小时人工转录数据上进行训练 支持可定制的逐字转录
少走99%的弯路!0基础快速入门语音识别
超划算的语音课程,确定不来了解下?
【秒懂】语音识别是什么
动手体验语音AI开发利器 - NVIDIA NeMo代码实战
Kaldi中的神经网络
语音AIGC技术进展-音频技术在喜马拉雅的研发和落地应用-卢恒