腾讯会议的实时音频技术介绍和展望腾讯天籁实验室余涛 - 视频下载 Video Downloader

腾讯会议的实时音频技术介绍和展望腾讯天籁实验室余涛

发布人

打开封面下载高清视频观看高清视频视频下载器

打造低延时、高精度的腾讯会议智能语音识别系统

Sherpa:新一代 Kaldi 部署框架

ICASSP 2023 论文预讲会第二期清华大学人机语音交互实验室专场（上）

ModelScope魔搭社区及其开源的语音AI模型

基于新一代kaldi项目的语音识别应用实例-郭理勇小米

基于音频辨别的对比学习在连续语音中的可定制关键词检测

ICASSP 2023 论文预讲会第三期清华大学人机语音交互实验室专场（THUHCSI）（下）

端到端语音到语音翻译中的零样本风格迁移

开源语音识别工具wenet 简介张彬彬

西工大ASLP实验室语音生成模型新进展-西北工业大学谢磊老师

音频内容生成:构建数字化人类、人性化人工智能-雪巍(Wei-XUE)

【语音之家】AI产业沙龙——语音&音乐技术在字节跳动平台的应用

RaD-Net：一种用于语音信号改善的修复与降噪网络

喜马拉雅语音识别技术和应用介绍

具有目标说话人吸引子的端到端神经说话人分类的基于注意力的编解码器网络

京东智能语音交互技术进展及应用

圆桌：语音开源技术张仕良张彬彬康魏

声音成分分析及其下游应用

【语音之家公开课】音频-文本跨模态翻译 Audio-Text Cross Modal Translation

【音乐与音频处理】在学术计算规模上再现大型预训练语音模型-Shinji-WATANABE

基于混合预测编码与知识蒸馏的双模语音转换模型

语音AIGC技术进展-音频技术在喜马拉雅的研发和落地应用-卢恒

说话人识别中的Hard Trials初步探索

面向有声读物合成的上下文感知连贯性说话风格预测方法

声纹识别与语音防伪技术前沿及工作进展

【语音之家】AI产业沙龙—语音技术在贝壳的应用

【语音之家公开课】表现力语音与歌唱合成

面向神经声码器训练的一种合成语料生成方法

【荐】已经开到第四期了，端到端语音识别好课，新增语音大模型内容

高速高质量零资源歌声合成-雪巍

多通道、多人及非基于声纹编码向量的特定人语音抽取-李明

对标OpenAI高级语音【Her】开源实时多模态AI聊天机器人Moshi，语音对话延迟低至200毫秒！67页技术报告全公开 AI大神Karpathy盛赞

实时多人会话的语音识别-微软首席应用科学家-陈卓

SELM：基于离散标记和语言模型的语音增强方法

开源语音识别工具WeNet，从入门到精通

用于声学信号内容理解的机器学习算法前瞻 -李圣辰 -西交利物浦大学

基于平行语料的可逆变声

CQNV：低比特率混合编解码器架构

开源语音和 wenet-e2e 社区

【语音之家】AI技术沙龙—语音增强