家居场景下音视频说话人日志和语音识别评测介绍（MISP 2022）-杜俊 - 视频下载 Video Downloader

家居场景下音视频说话人日志和语音识别评测介绍（MISP 2022）-杜俊

发布人

近年来，随着DIHARD和CHiME等国际评测的举办，单模态音频说话人日志和语音识别技术得到不断进步，但另一方面，这些技术在家居和会议等多人复杂声学场景下也遇到了性能瓶颈。因此，今年基于多模态信息的语音处理（MISP 2022）国际评测将关注家居场景下的音视频说话人日志和语音识别任务，通过视频模态中脸部和唇形等信息的引入，期待进一步提升实际复杂场景下的说话人日志和识别性能。本报告将从任务和数据集的定义、基线系统的构建、挑战性分析等几个方面展开介绍，希望大家可以共同参与并探讨这个技术方向的未来发展。

打开封面下载高清视频观看高清视频视频下载器

多说话人交互场景中的目标说话人提取

Sherpa:新一代 Kaldi 部署框架

【语音识别】声学特征提取

【清华】从0开始学Kaldi，丝滑入门语音识别，语音识别原来如此简单

鲁棒说话人识别高级池化方法-MAK Man-Wai

开源语音识别工具wenet 简介张彬彬

SH-SSS丨ISSD: 基于迭代式语音分离的说话人日志系统 — 牛树同

少走99%的弯路！0基础快速入门语音识别

【实操】通过NVIDIA NEMO 训练语音AI模型（上）

ModelScope语音开源现状和语音语义多模态大模型研究进展张仕良

Kaldi安装与样例流程介绍

基于新一代kaldi项目的语音识别应用实例-郭理勇小米

【语音之家公开课】多说话人语音识别的前沿进展

【科普】语音识别分类大科普！你真的知道所有语音识别分类吗？

基于共振峰和基频缩放的可区分说话人匿名化

【Wenet语音识别】预训练模型-流式和非流式模型

【秒懂】智能语音技术范畴

面向复杂场景的说话人日志

Whisper终结者：Reverb ASR 语音识别和说话人分离方面新标杆在前所未有的20万小时人工转录数据上进行训练支持可定制的逐字转录

说话人识别中的Hard Trials初步探索

基于语音噪声双流谱改善网络使用语音失真损失函数的鲁棒语音识别

圆桌：语音开源技术张仕良张彬彬康魏

【语音之家】AI产业沙龙—VoxSRC-22说话人识别挑战赛快商通方案介绍

2022年声纹识别研究与应用学术研讨会

【语音之家】AI产业沙龙—自动语音识别利器 - NVIDIA NeMo

低延迟非自回归语音识别方法

基于热词短语预测网络的热词语音识别

【语音之家】AI产业沙龙—视频译制场景中的语音翻译、语音合成和唇形生成技术

1MB内存下移动说话人验证系统的极低比特量化

【课程推荐】kaldi语音识别实战 | 0基础适用

【语音之家】AI产业沙龙—AI语音赋能产业数字化新场景

跨语种的语音转换-武执正

说话人分割聚类研究进展与展望

对抗噪声标签的鲁棒说话人识别

语音之家公开课 —《语音识别服务实战》交流

SH-SSS丨面向有声读物的跨说话人语音风格迁移 — 李翔

中国语音产业联盟系列沙龙—字幕语音识别ASR

【ICASSP】加入预训练模型的半监督声音事件检测

INTERSPEECH 2023 论文预讲会第一期清华大学&新疆大学专场

实现选择性听觉注意的单耳语音分离和说话人识别的深度学习解决方案-李海洲