V
主页
基于乱序自回归的动作插值
发布人
打开封面
下载高清视频
观看高清视频
视频下载器
【秒懂】语音识别是什么
少走99%的弯路!0基础快速入门语音识别
音频生成-王文武
Daniel Povey|Zipformer:一种改进的语音识别编码器
基于新一代kaldi项目的语音识别应用实例-郭理勇 小米
RaD-Net:一种用于语音信号改善的修复与降噪网络
基于音频辨别的对比学习在连续语音中的可定制关键词检测
低延迟非自回归语音识别方法
【科普】语音识别分类大科普!你真的知道所有语音识别分类吗?
AIGC一周大事件 2024世界机器人大会 Meta Deepmind 字节跳动 技术新突破
交互式AI中语音技术实践与探索-万玉龙
圆桌:语音开源技术 张仕良 张彬彬 康魏
基于深度聚类和图网络的声纹识别-何亮、许敏强
基于距离的权重转移,用于从近场到远场的说话人验证模型的微调
Sherpa:新一代 Kaldi 部署框架
基于平行语料的可逆变声
VISinger:高保真端到端歌声合成模型
用对比学习增强流式与非流式模型
基于语音识别预训练的说话人识别方法
基于热词短语预测网络的热词语音识别
域移下异常声音检测的分层元数据信息约束自监督学习
【语音之家】AI技术沙龙- -说话人日志
声音成分分析及其下游应用
【音乐与音频处理】在学术计算规模上再现大型预训练语音模型-Shinji-WATANABE
SEF-Net:不依赖于声纹Embedding的时域目标说话人分离网络
kaldi语音识别:数据准备与特征提取
【声纹识别】什么是声纹识别?声纹识别发展历程怎样?
kaldi语音识别:GMM训练
鲁棒说话人识别高级池化方法-MAK Man-Wai
通过扬声器提示调优和适配器表示的双参数高效微调【香港理工大学】
SH-SSS丨面向有声读物的跨说话人语音风格迁移 — 李翔
【大模型】认知导向的视听觉大语言模型
MARBLE:通用评价的音乐音频表现基准-马英浩(Yinghao-MA)
圆桌:音频与大模型(欧智坚 何磊 钱彦旻 易江燕 栾剑 张超)
上新了 语音之家 | 声纹识别与音频处理实战课—王泉
面向神经声码器训练的一种合成语料生成方法
应用于全带残余回声抑制的两步频带分割神经网络方法
通过NVIDIA NEMO 训练语音AI模型(下)
跨语言语音识别中基于联合语音表征学习的音素到词转码器
【语音之家】AI产业沙龙—VoxSRC-22说话人识别挑战赛快商通方案介绍