V
主页
Sherpa:新一代 Kaldi 部署框架
发布人
打开封面
下载高清视频
观看高清视频
视频下载器
【清华】从0开始学Kaldi,丝滑入门语音识别,语音识别原来如此简单
Daniel Povey|Zipformer:一种改进的语音识别编码器
基于新一代kaldi项目的语音识别应用实例-郭理勇 小米
Whisper终结者:Reverb ASR 语音识别和说话人分离方面新标杆 在前所未有的20万小时人工转录数据上进行训练 支持可定制的逐字转录
WeNet开源社区最新进展
面向表现力语音合成的多尺度风格建模与生成-吴志勇
K2的介绍及应用
用于声学信号内容理解的机器学习算法前瞻 -李圣辰 -西交利物浦大学
基于热词短语预测网络的热词语音识别
多说话人交互场景中的目标说话人提取
西工大ASLP实验室语音生成模型新进展-西北工业大学谢磊老师
ESPnet-SE开源工具介绍-钱彦旻 上海交通大学
2022年声纹识别研究与应用学术研讨会
多通道、多人及非基于声纹编码向量的特定人语音抽取-李明
Kaldi安装与样例流程介绍
如何用开源工具实现一个完整的语音识别系统?
浙大清华发布语音伪造检测框架SafeEar,内容隐私保护,语音造假无处遁形
打造低延时、高精度的腾讯会议智能语音识别系统
用对比学习增强流式与非流式模型
语音AIGC技术进展-音频技术在喜马拉雅的研发和落地应用-卢恒
登上GitHub趋势榜榜首的TTS开源大模型:MaskGCT,刷新全球多项SOTA
喜马拉雅语音识别技术和应用介绍
Muzic:建立一个多才多艺的音乐人工智能助手-谭旭(Xu-TAN)
VISinger:高保真端到端歌声合成模型
Kaldi中的神经网络
基于序列到序列预测的特定人语音活动检测
ICASSP 2023 论文预讲会 第二期 清华大学人机语音交互实验室专场(上)
用kimi去文章AI味,保姆级实操教程📚
圆桌:音频与大模型(欧智坚 何磊 钱彦旻 易江燕 栾剑 张超)
大规模、动态「语音增强/分离」新基准!清华发布移动音源仿真平台SonicSim,含950+小时训练数据
实时多人会话的语音识别-微软首席应用科学家-陈卓
面向所有语音任务的通用语音模型-李宏毅(Hung-yi-LEE)
基于GAN的无监督机器音频异常检测与定位
【语音之家】AI产业沙龙 —— 三星语言智能团队ICASSP2023论文分享会
音频理解视频场景下的推理加速解决方案 字节跳动
【语音之家】AI产业沙龙—京东在AI语音方向的技术探索与实践
面向有声读物合成的上下文感知连贯性说话风格预测方法
文本到音频的生成:技术和应用-刘豪赫(Haohe LIU)
京东在监督对比学习语音识别中的实践
CQNV:低比特率混合编解码器架构