Sherpa:新一代 Kaldi 部署框架 - 视频下载 Video Downloader

Sherpa:新一代 Kaldi 部署框架

发布人

打开封面下载高清视频观看高清视频视频下载器

【清华】从0开始学Kaldi，丝滑入门语音识别，语音识别原来如此简单

Daniel Povey|Zipformer:一种改进的语音识别编码器

基于新一代kaldi项目的语音识别应用实例-郭理勇小米

Whisper终结者：Reverb ASR 语音识别和说话人分离方面新标杆在前所未有的20万小时人工转录数据上进行训练支持可定制的逐字转录

WeNet开源社区最新进展

面向表现力语音合成的多尺度风格建模与生成-吴志勇

K2的介绍及应用

用于声学信号内容理解的机器学习算法前瞻 -李圣辰 -西交利物浦大学

基于热词短语预测网络的热词语音识别

多说话人交互场景中的目标说话人提取

西工大ASLP实验室语音生成模型新进展-西北工业大学谢磊老师

ESPnet-SE开源工具介绍-钱彦旻上海交通大学

2022年声纹识别研究与应用学术研讨会

多通道、多人及非基于声纹编码向量的特定人语音抽取-李明

Kaldi安装与样例流程介绍

如何用开源工具实现一个完整的语音识别系统？

浙大清华发布语音伪造检测框架SafeEar，内容隐私保护，语音造假无处遁形

打造低延时、高精度的腾讯会议智能语音识别系统

用对比学习增强流式与非流式模型

语音AIGC技术进展-音频技术在喜马拉雅的研发和落地应用-卢恒

登上GitHub趋势榜榜首的TTS开源大模型：MaskGCT，刷新全球多项SOTA

喜马拉雅语音识别技术和应用介绍

Muzic:建立一个多才多艺的音乐人工智能助手-谭旭(Xu-TAN)

VISinger：高保真端到端歌声合成模型

Kaldi中的神经网络

基于序列到序列预测的特定人语音活动检测

ICASSP 2023 论文预讲会第二期清华大学人机语音交互实验室专场（上）

用kimi去文章AI味，保姆级实操教程📚

圆桌：音频与大模型（欧智坚何磊钱彦旻易江燕栾剑张超）

大规模、动态「语音增强/分离」新基准！清华发布移动音源仿真平台SonicSim，含950+小时训练数据

实时多人会话的语音识别-微软首席应用科学家-陈卓

面向所有语音任务的通用语音模型-李宏毅(Hung-yi-LEE)

基于GAN的无监督机器音频异常检测与定位

【语音之家】AI产业沙龙 —— 三星语言智能团队ICASSP2023论文分享会

音频理解视频场景下的推理加速解决方案字节跳动

【语音之家】AI产业沙龙—京东在AI语音方向的技术探索与实践

面向有声读物合成的上下文感知连贯性说话风格预测方法

文本到音频的生成:技术和应用-刘豪赫(Haohe LIU)

京东在监督对比学习语音识别中的实践

CQNV：低比特率混合编解码器架构