V
主页
针对部分篡改音频的波形边界检测系统
发布人
打开封面
下载高清视频
观看高清视频
视频下载器
【Wenet语音识别】功能架构和模型结构
基于语音噪声双流谱改善网络使用语音失真损失函数的鲁棒语音识别
基于新一代kaldi项目的语音识别应用实例-郭理勇 小米
Kaldi安装与样例流程介绍
音频理解视频场景下的推理加速解决方案 字节跳动
什么是语音信号?
低资源小语种自动语音识别:清华THUEE队伍在OpenASR20的系统描述
低延迟非自回归语音识别方法
基于热词短语预测网络的热词语音识别
具有目标说话人吸引子的端到端神经说话人分类的基于注意力的编解码器网络
基于语音识别预训练的说话人识别方法
MISP 2021挑战赛后的DKU音视频唤醒词识别系统:深度分析
用于大规模说话人验证的动态全连接层
多说话人语音识别中可感知边界的序列化输出训练
多语言和代码转换语音识别的语言路由专家混合
端到端语音到语音翻译中的零样本风格迁移
基于序列胶囊网络的语音情感识别
基于音频辨别的对比学习在连续语音中的可定制关键词检测
面向会议的对话语音识别
ICASSP 2023 论文预讲会 第八期 西北工业大学音频语音与语言处理研究组(NPU-ASLP)专场(下)
声音成分分析及其下游应用
Daniel Povey|Zipformer:一种改进的语音识别编码器
基于距离的权重转移,用于从近场到远场的说话人验证模型的微调
基于多通道训练和交叉信息融合的低资源端到端口音识别
1MB内存下移动说话人验证系统的极低比特量化
MARBLE:通用评价的音乐音频表现基准-马英浩(Yinghao-MA)
【闲话AI】语音识别的发展 陈果果
一个使用单事件声音的详细的音频-文本数据模拟管道
语音识别基础:从声音到语音
【荐】已经开到第四期了,端到端语音识别好课,新增语音大模型内容
适应多语言ASR模型,以处理多个说话人
基于Transducer的流式自适应热词语音识别
基于多频带时频注意力的复调音乐旋律提取
ICASSP 2023 论文预讲会 第二期 清华大学人机语音交互实验室专场(上)
浙大清华发布语音伪造检测框架SafeEar,内容隐私保护,语音造假无处遁形
UniSplice:面向低资源ASR的通用跨语言数据拼接
【语音识别】GigaSpeech 数据集 简介 陈果果
语音识别发展历程:从模式匹配到统计模型
Amphion-开源的音频 、音乐和语音生成工具包-武执政
kaldi语音识别:数据准备与特征提取