Trimtail：语音识别延迟优化中的暴利美学 - 视频下载 Video Downloader

Trimtail：语音识别延迟优化中的暴利美学

发布人

打开封面下载高清视频观看高清视频视频下载器

【秒懂】语音识别是什么

Sherpa:新一代 Kaldi 部署框架

SlideSpeech：大规模幻灯片丰富的语音-视频语料库

少走99%的弯路！0基础快速入门语音识别

Kaldi安装与样例流程介绍

基于热词短语预测网络的热词语音识别

基于多目标渐进聚类的半监督说话人识别域自适应

喜马拉雅语音识别技术和应用介绍

基于语音噪声双流谱改善网络使用语音失真损失函数的鲁棒语音识别

WeNet开源社区最新进展

基于多通道时空特征和知识蒸馏的鲁棒目标说话人提取研究

Kaldi实战：用kaldi进行神经网络训练

【科普】语音识别分类大科普！你真的知道所有语音识别分类吗？

利用基于帧级跨模态注意力的音视频Confomer的鲁棒音视频唤醒词识别

Daniel Povey|Zipformer:一种改进的语音识别编码器

实时多人会话的语音识别-微软首席应用科学家-陈卓

Kaldi中的神经网络

【语音之家】AI产业沙龙—京东在AI语音方向的技术探索与实践

说话人日志与语音识别的多层联合推理

域移下异常声音检测的分层元数据信息约束自监督学习

kaldi语音识别：数据准备与特征提取

一种端到端脑电图通道选择的脑辅助语音增强方法

SEF-Net:不依赖于声纹Embedding的时域目标说话人分离网络

打造低延时、高精度的腾讯会议智能语音识别系统

深度生成固定滤波器的有源噪声控制

面向表现力语音合成的多尺度风格建模与生成-吴志勇

基于序列胶囊网络的语音情感识别

【ICASSP2024】基于记忆感知和Seq2Seq架构的说话人日志系统

基于无监督学习的端到端无分层生成固定滤波器主动噪声控制

基于Transducer的流式自适应热词语音识别

基于ControlVAE和扩散桥的语音合成可解释风格转换

声音成分分析及其下游应用

【实操】使用wenet搭建云端语音识别系统

面向会议的对话语音识别

通过扬声器提示调优和适配器表示的双参数高效微调【香港理工大学】

kaldi语音识别：GMM训练

具有目标说话人吸引子的端到端神经说话人分类的基于注意力的编解码器网络

MISP 2023挑战中视听目标扬声器提取的XMUSPEECH系统

一个使用单事件声音的详细的音频-文本数据模拟管道

【音乐与音频处理】什么是音乐理解？卡耐基梅隆大学罗杰·B·丹嫩贝格（Roger-B.DANNENBERG）