V
主页
论文解读丨CUSIDE:分块、模拟未来、解码的流式语音识别新框架 -结论
发布人
为了在不损失识别精度的前提下实现低延迟语音识别,我们提出了一种基于分块、预测未来、解码(Chunking, Simulating future context and Decoding,CUSIDE)的低延迟语音识别框架。在该模型中,模型使用模拟的未来帧而不是真实未来帧作为未来信息,由此可以免除对未来信息的依赖,减小识别延迟。
打开封面
下载高清视频
观看高清视频
视频下载器
论文解读丨CUSIDE:分块、模拟未来、解码的流式语音识别新框架 -相关工作
论文解读丨CUSIDE:分块、模拟未来、解码的流式语音识别新框架 -简介
多说话人交互场景中的目标说话人提取
【Wenet语音识别】功能架构和模型结构
【语音识别】声学特征提取
【声纹识别入门】ASV-Subtools工具环境配置
2022年声纹识别研究与应用学术研讨会
基于Transducer的流式自适应热词语音识别
SlideSpeech:大规模幻灯片丰富的语音-视频语料库
实时语音识别,流式SenseVoice来啦!
唤醒你的贾维斯,该从哪里开始学? 5分钟让你了解语音识别技术
【荐】已经开到第四期了,端到端语音识别好课,新增语音大模型内容
【声纹识别入门】ASV-Subtools工具 特征提取
开源语音识别工具WeNet,从入门到精通
【实操】使用wenet搭建云端语音识别系统
感知难度的说话人识别数据增强
基于多目标渐进聚类的半监督说话人识别域自适应
少走99%的弯路!0基础快速入门语音识别
【声纹识别入门】ASV-Subtools工具 迁移学习的核心代码
1MB内存下移动说话人验证系统的极低比特量化
通过扬声器提示调优和适配器表示的双参数高效微调【香港理工大学】
语音之家公开课 —《WeNet语音识别实战》课程交流
【课程推荐】ASV-Subtools声纹识别实战 | AVS-Subtoos发布者亲自带您掌握当下最流行声纹识别工具,助力开发者从0到1轻松上手声纹技术!
【声纹识别入门】ASV-Subtools工具 数据合并 & vad计算
基于新一代kaldi项目的语音识别应用实例-郭理勇 小米
【声纹识别入门】基于ResNet的模型实现
基于序列胶囊网络的语音情感识别
【课程推荐】kaldi语音识别实战 | 0基础适用
通过声音事件检测增强音频描述中的时间关系
【免费赠书】新书速递《语音识别:原理与应用》(第2版)
多说话人语音识别中可感知边界的序列化输出训练
WeNet开源社区最新进展
kaldi之父 Daniel-Povey:Next-Gen Kaldi: Status and Near-term Plans
【入门语音识别】WFST理论
家长向360手表提问题,结果语音回答内容却尽毁三观,客服回应
陈果果 语音识别的发展: A Dataset and Benchmark Perspective【语音之家公开课】
基于数据增强的语音编辑改进ASR中的代码转换和命名实体识别
【实操】通过NVIDIA NEMO 训练语音AI模型(上)
什么是语音增强?语音识别?语音合成?智能语音技术的前沿与发展(5/6)
利用唤醒词参考语音的高效个人语音活动检测