V
主页
中文连续视觉语音识别挑战赛
发布人
视觉语音识别,也称唇语识别,是一项通过口唇动作来推断发音内容的技术。该技术在公共安全、助老助残、视频验真等领域具有重要应用。当前,唇语识别的研究方兴未艾,虽然在独立词、短语等识别上取得了长足进展,但在大词表连续识别方面仍面临巨大挑战。特别是对于中文而言,由于缺乏相应的数据资源,该领域的研究进展受到了限制。为此,清华大学在2023年发布了CN-CVS数据集,成为首个大规模的中文视觉语音识别数据库,为进一步推动大词表连续视觉语音识别提供了可能。
打开封面
下载高清视频
观看高清视频
视频下载器
基于faster_whisper的实时语音识别 | 可对接大模型的实时语音识别 | 实时语音识别 | 一句话识别
【Wenet语音识别】预训练模型-流式和非流式模型
唤醒你的贾维斯,该从哪里开始学? 5分钟让你了解语音识别技术
基于语音噪声双流谱改善网络使用语音失真损失函数的鲁棒语音识别
基于序列胶囊网络的语音情感识别
基于多目标渐进聚类的半监督说话人识别域自适应
【秒懂】智能语音技术范畴
开源语音识别工具WeNet,从入门到精通
【免费赠书】新书速递《语音识别:原理与应用》(第2版)
基于数据增强的语音编辑改进ASR中的代码转换和命名实体识别
说话人日志与语音识别的多层联合推理
多说话人语音识别中可感知边界的序列化输出训练
用于语音情感识别的多尺度时空Transformer模型
Daniel Povey|Zipformer:一种改进的语音识别编码器
【声纹识别】什么是声纹识别?声纹识别发展历程怎样?
MISP 2021挑战赛后的DKU音视频唤醒词识别系统:深度分析
低延迟非自回归语音识别方法
实测 OpenAI 高级语音功能 & 常见问题解答
AI语音面试常见问题:端到端模型与传统模型的区别
基于faster_whisper的实时语音识别改进版 | whisper中出现繁体中文的解决方法 | 语音识别中繁体转简体 | OpenCC
喜马拉雅语音识别技术和应用介绍
实时多人会话的语音识别-微软首席应用科学家-陈卓
kaldi语音识别:GMM训练
【唤醒词识别】特征提取
一种基于扩散模型(LDM)的风格语音转换方法 论文推荐
4块GPU、不到3天训练出「开源版GPT-4o」 基于LLaMA-3.1-8B,羊驼家族再添大将,实现低延迟/高质量的语音互动
面向L3DAS23挑战赛的通道流注意力机制网络
以目标语音识别为例,弱监督语音预训练
更快的语音识别模型whisper-large-v3-turbo
基于鼾声的睡眠体位识别(数据集)
【闲话AI】语音识别的发展 陈果果
交互式AI中语音技术实践与探索-万玉龙
利用基于熵的融合以及基于剪枝的网络架构优化改进多模态情感识别
如何用开源工具实现一个完整的语音识别系统?
【语音之家公开课】多说话人语音识别的前沿进展
【唤醒词识别】唤醒词识别算法应用场景
kaldi语音识别:数据准备与特征提取
VoiceFlow:高效的文本到语音的纠正流量匹配
PromptVC:基于自然语言提示的潜在空间灵活风格语音转换
【音乐与音频处理】什么是音乐理解?卡耐基梅隆大学 罗杰·B·丹嫩贝格(Roger-B.DANNENBERG)