基于乱序自回归的动作插值 - 视频下载 Video Downloader

基于乱序自回归的动作插值

发布人

打开封面下载高清视频观看高清视频视频下载器

【秒懂】语音识别是什么

少走99%的弯路！0基础快速入门语音识别

音频生成-王文武

Daniel Povey|Zipformer:一种改进的语音识别编码器

基于新一代kaldi项目的语音识别应用实例-郭理勇小米

RaD-Net：一种用于语音信号改善的修复与降噪网络

基于音频辨别的对比学习在连续语音中的可定制关键词检测

低延迟非自回归语音识别方法

【科普】语音识别分类大科普！你真的知道所有语音识别分类吗？

AIGC一周大事件 2024世界机器人大会 Meta Deepmind 字节跳动技术新突破

交互式AI中语音技术实践与探索-万玉龙

圆桌：语音开源技术张仕良张彬彬康魏

基于深度聚类和图网络的声纹识别-何亮、许敏强

基于距离的权重转移，用于从近场到远场的说话人验证模型的微调

Sherpa:新一代 Kaldi 部署框架

基于平行语料的可逆变声

VISinger：高保真端到端歌声合成模型

用对比学习增强流式与非流式模型

基于语音识别预训练的说话人识别方法

基于热词短语预测网络的热词语音识别

域移下异常声音检测的分层元数据信息约束自监督学习

【语音之家】AI技术沙龙- -说话人日志

声音成分分析及其下游应用

【音乐与音频处理】在学术计算规模上再现大型预训练语音模型-Shinji-WATANABE

SEF-Net:不依赖于声纹Embedding的时域目标说话人分离网络

kaldi语音识别：数据准备与特征提取

【声纹识别】什么是声纹识别？声纹识别发展历程怎样？

kaldi语音识别：GMM训练

鲁棒说话人识别高级池化方法-MAK Man-Wai

通过扬声器提示调优和适配器表示的双参数高效微调【香港理工大学】

SH-SSS丨面向有声读物的跨说话人语音风格迁移 — 李翔

【大模型】认知导向的视听觉大语言模型

MARBLE:通用评价的音乐音频表现基准-马英浩(Yinghao-MA)

圆桌：音频与大模型（欧智坚何磊钱彦旻易江燕栾剑张超）

上新了语音之家 | 声纹识别与音频处理实战课—王泉

面向神经声码器训练的一种合成语料生成方法

应用于全带残余回声抑制的两步频带分割神经网络方法

通过NVIDIA NEMO 训练语音AI模型（下）

跨语言语音识别中基于联合语音表征学习的音素到词转码器

【语音之家】AI产业沙龙—VoxSRC-22说话人识别挑战赛快商通方案介绍