V
主页
实时多人会话的语音识别-微软首席应用科学家-陈卓
发布人
实时多人会话的语音识别-微软首席应用科学家-陈卓
打开封面
下载高清视频
观看高清视频
视频下载器
基于新一代kaldi项目的语音识别应用实例-郭理勇 小米
基于热词短语预测网络的热词语音识别
开源语音识别工具wenet 简介 张彬彬
Sherpa:新一代 Kaldi 部署框架
【语音识别】声学特征提取
少走99%的弯路!0基础快速入门语音识别
ModelScope语音开源现状和语音语义多模态大模型研究进展 张仕良
ModelScope魔搭社区及其开源的语音AI模型
Panel :语音技术新时代
【实操】使用wenet搭建云端语音识别系统
域移下异常声音检测的分层元数据信息约束自监督学习
SlideSpeech:大规模幻灯片丰富的语音-视频语料库
VoxBlink:短视频上的大规模说话人验证数据集
【ICASSP2024】基于记忆感知和Seq2Seq架构的说话人日志系统
【语音之家】AI产业沙龙—京东在AI语音方向的技术探索与实践
【荐】已经开到第四期了,端到端语音识别好课,新增语音大模型内容
打造低延时、高精度的腾讯会议智能语音识别系统
跨语种的语音转换-武执正
以目标语音识别为例,弱监督语音预训练
TF-SepNet:一种用于低复杂度声学场景分类的卷积神经网络中的高效一维核设计
利用元数据辅助音频生成估计未知异常的无监督异常声音检测
【语音之家】AI产业沙龙—语音技术在国音智能的应用
Amphion-开源的音频 、音乐和语音生成工具包-武执政
面向表现力语音合成的多尺度风格建模与生成-吴志勇
说话人识别中的Hard Trials初步探索
圆桌:语音开源技术 张仕良 张彬彬 康魏
面向通用语音离散标记:ASR和TTS的一个案例研究
开源语音和 wenet-e2e 社区
利用基于熵的融合以及基于剪枝的网络架构优化改进多模态情感识别
【清华】从0开始学Kaldi,丝滑入门语音识别,语音识别原来如此简单
音频生成-王文武
【语音之家】AI产业沙龙 —解读火山语音团队在国际顶会ACL2023的创新突破
如何用开源工具实现一个完整的语音识别系统?
【音乐与音频处理】什么是音乐理解?卡耐基梅隆大学 罗杰·B·丹嫩贝格(Roger-B.DANNENBERG)
自适应过滤器的元学习初始化背后是什么?-是一种加速自适应多通道主动噪声控制收敛的简单方法
Trimtail:语音识别延迟优化中的暴利美学
【语音之家】AI产业沙龙—智能语音技术在美团的应用实践
Discussion:生成音频AI和研究社区、艺术产业 、公众.mp4
什么是语音信号?
【闲话AI】语音识别发展史