V
主页
京东 11.11 红包
论文解读丨CUSIDE:分块、模拟未来、解码的流式语音识别新框架 -实验设置
发布人
为了在不损失识别精度的前提下实现低延迟语音识别,我们提出了一种基于分块、预测未来、解码(Chunking, Simulating future context and Decoding,CUSIDE)的低延迟语音识别框架。在该模型中,模型使用模拟的未来帧而不是真实未来帧作为未来信息,由此可以免除对未来信息的依赖,减小识别延迟。
打开封面
下载高清视频
观看高清视频
视频下载器
论文解读丨CUSIDE:分块、模拟未来、解码的流式语音识别新框架 -方法介绍
论文解读丨CUSIDE:分块、模拟未来、解码的流式语音识别新框架 -简介
Sherpa:新一代 Kaldi 部署框架
【声纹识别入门】ASV-Subtools工具 特征提取
论文解读丨CUSIDE:分块、模拟未来、解码的流式语音识别新框架 -相关工作
【语音识别】语音的采样与量化
【语音识别】声学特征提取
多说话人交互场景中的目标说话人提取
【声纹识别入门】ASV-Subtools工具runtime实现-frontend
基于预训练的伪造语音检测研究进展-张鹏远
【秒懂】智能语音技术范畴
声纹识别工具ASV-Subtools-江涛
如何工程化一个语音开源项目: 手把手带你实现开源声纹分割聚类项目 pyannote-audio 的工程化
低延迟非自回归语音识别方法
【荐】已经开到第四期了,端到端语音识别好课,新增语音大模型内容
高速高质量零资源歌声合成-雪巍
超划算的语音课程,确定不来了解下?
【Wenet语音识别】Transformer和Conformer
基于共振峰和基频缩放的可区分说话人匿名化
2022第七届Kaldi技术交流会 暨 SpeechHome 语音技术研讨会 第二届
Trimtail:语音识别延迟优化中的暴利美学
B站首个WeNet语音识别课程,WeNet核心团队亲授
面向复杂场景的高可靠性声纹识别及其关联任务研究!-01
少走99%的弯路!0基础快速入门语音识别
提升Conformer-Transducer ASR系统的语音辅助多目标单元建模
kaldi语音识别:数据准备与特征提取
【声纹识别入门】声纹识别技术发展的第一次高潮-GMM的引入
面向会议的对话语音识别
2021年声纹识别研究与应用学术研讨会
INTERSPEECH 2023 论文预讲会 第一期 清华大学&新疆大学专场
【课程推荐】kaldi语音识别实战 | 0基础适用
Kaldi安装与样例流程介绍
【声纹识别入门】ASV-Subtools工具 音素标签获取-特征提取
面向表现力语音合成的多尺度风格建模与生成-吴志勇
WeNet开源社区最新进展
打造低延时、高精度的腾讯会议智能语音识别系统
【语音之家】AI技术沙龙-声纹识别
什么是语音增强?语音识别?语音合成?智能语音技术的前沿与发展(6/6)
自定义语音唤醒中的关键词自适应声学模型剪枝
ModelScope语音开源现状和语音语义多模态大模型研究进展 张仕良