Xmart青年论坛语音大模型的后训练对齐

发布人

随着越来越多大规模语音预训练模型（例如Whisper）的发布，如何将他们高效地对齐到指定的应用场景成为了一个值得探索的问题。本次报告将从语音理解和生成两个方向介绍我们最新的工作。具体地，我们使用后训练的方法，以少量的无标签数据和单张GPU即可有效提升大语音模型在下游场景上的性能。

打开封面下载高清视频观看高清视频视频下载器

4块GPU、不到3天训练出「开源版GPT-4o」基于LLaMA-3.1-8B，羊驼家族再添大将，实现低延迟/高质量的语音互动

基于音频辨别的对比学习在连续语音中的可定制关键词检测

【清华】从0开始学Kaldi，丝滑入门语音识别，语音识别原来如此简单

通过NVIDIA NEMO 训练语音AI模型（下）

【语音之家】 AI技术沙龙- -语音合成

面向所有语音任务的通用语音模型-李宏毅(Hung-yi-LEE)

基于平行语料的可逆变声

2022年声纹识别研究与应用学术研讨会

开源语音识别工具wenet 简介张彬彬

圆桌：语音开源技术张仕良张彬彬康魏

PromptVC：基于自然语言提示的潜在空间灵活风格语音转换

ESPnet-SE开源工具介绍-钱彦旻上海交通大学

一种基于扩散模型（LDM）的风格语音转换方法论文推荐

基于语音噪声双流谱改善网络使用语音失真损失函数的鲁棒语音识别

基于无监督学习的端到端无分层生成固定滤波器主动噪声控制

【音乐与音频处理】什么是音乐理解？卡耐基梅隆大学罗杰·B·丹嫩贝格（Roger-B.DANNENBERG）

【荐】已经开到第四期了，端到端语音识别好课，新增语音大模型内容

DualVC 2：用于统一流式与非流式语音转换的动态掩码卷积

【聘】医疗级听力技术研发公司，招聘AI语音实习生

利用元数据辅助音频生成估计未知异常的无监督异常声音检测

开源语音和 wenet-e2e 社区

ICASSP 2023 论文预讲会第七期西北工业大学音频语音与语言处理研究组（NPU-ASLP）专场（上）

TF-SepNet：一种用于低复杂度声学场景分类的卷积神经网络中的高效一维核设计

基于副语言特征和预训练特征的跨语言阿尔茨海默症检测

适应多语言ASR模型，以处理多个说话人

基于注意力融合瓶颈与扰动特征的高表现力语音转换模型

SponTTS：自发风格建模与迁移的文本到语音合成

基于预训练的伪造语音检测研究进展-张鹏远

基于热词短语预测网络的热词语音识别

【ICASSP2024】基于记忆感知和Seq2Seq架构的说话人日志系统

【语音之家】AI产业沙龙—腾讯AI Lab语音技术进展分享报告

基于SepFormer的交叉注意力音视频目标说话人语音提取方法

高速高质量零资源歌声合成-雪巍

【语音合成】Tacotron-2 的实现实战试听

字节发布音乐大模型 Seed-Music，10秒录音变身歌声，音乐创作GPT 时刻到来！

基于序列到序列预测的特定人语音活动检测

基于前后端联合训练的鲁棒伪造语音检测系统

MISP 2023挑战中视听目标扬声器提取的XMUSPEECH系统

AI语音面试常见问题：端到端模型与传统模型的区别

说话人识别中的Hard Trials初步探索

Xmart青年论坛 语音大模型的后训练对齐

4块GPU、不到3天训练出「开源版GPT-4o」 基于LLaMA-3.1-8B，羊驼家族再添大将，实现低延迟/高质量的语音互动

基于音频辨别的对比学习在连续语音中的可定制关键词检测

【清华】从0开始学Kaldi，丝滑入门语音识别，语音识别原来如此简单

通过NVIDIA NEMO 训练语音AI模型（下）

【语音之家】 AI技术沙龙- -语音合成

面向所有语音任务的通用语音模型-李宏毅(Hung-yi-LEE)

基于平行语料的可逆变声

2022年声纹识别研究与应用学术研讨会

开源语音识别工具wenet 简介 张彬彬

圆桌：语音开源技术 张仕良 张彬彬 康魏

PromptVC：基于自然语言提示的潜在空间灵活风格语音转换

ESPnet-SE开源工具介绍-钱彦旻 上海交通大学

一种基于扩散模型（LDM）的风格语音转换方法 论文推荐

基于语音噪声双流谱改善网络使用语音失真损失函数的鲁棒语音识别

基于无监督学习的端到端无分层生成固定滤波器主动噪声控制

【音乐与音频处理】什么是音乐理解？卡耐基梅隆大学 罗杰·B·丹嫩贝格（Roger-B.DANNENBERG）

【荐】已经开到第四期了，端到端语音识别好课，新增语音大模型内容

DualVC 2：用于统一流式与非流式语音转换的动态掩码卷积

【聘】医疗级听力技术研发公司，招聘AI语音实习生

利用元数据辅助音频生成估计未知异常的无监督异常声音检测

开源语音和 wenet-e2e 社区

ICASSP 2023 论文预讲会 第七期 西北工业大学音频语音与语言处理研究组（NPU-ASLP）专场（上）

TF-SepNet：一种用于低复杂度声学场景分类的卷积神经网络中的高效一维核设计

基于副语言特征和预训练特征的跨语言阿尔茨海默症检测

适应多语言ASR模型，以处理多个说话人

基于注意力融合瓶颈与扰动特征的高表现力语音转换模型

SponTTS：自发风格建模与迁移的文本到语音合成

基于预训练的伪造语音检测研究进展-张鹏远

基于热词短语预测网络的热词语音识别

【ICASSP2024】基于记忆感知和Seq2Seq架构的说话人日志系统

【语音之家】AI产业沙龙—腾讯AI Lab语音技术进展分享报告

基于SepFormer的交叉注意力音视频目标说话人语音提取方法

高速高质量零资源歌声合成-雪巍

【语音合成】Tacotron-2 的实现实战 试听

字节发布音乐大模型 Seed-Music，10秒录音变身歌声，音乐创作GPT 时刻到来！

基于序列到序列预测的特定人语音活动检测

基于前后端联合训练的鲁棒伪造语音检测系统

MISP 2023挑战中视听目标扬声器提取的XMUSPEECH系统

AI语音面试常见问题：端到端模型与传统模型的区别

说话人识别中的Hard Trials初步探索

Xmart青年论坛语音大模型的后训练对齐

4块GPU、不到3天训练出「开源版GPT-4o」基于LLaMA-3.1-8B，羊驼家族再添大将，实现低延迟/高质量的语音互动

开源语音识别工具wenet 简介张彬彬

圆桌：语音开源技术张仕良张彬彬康魏

ESPnet-SE开源工具介绍-钱彦旻上海交通大学

一种基于扩散模型（LDM）的风格语音转换方法论文推荐

【音乐与音频处理】什么是音乐理解？卡耐基梅隆大学罗杰·B·丹嫩贝格（Roger-B.DANNENBERG）

ICASSP 2023 论文预讲会第七期西北工业大学音频语音与语言处理研究组（NPU-ASLP）专场（上）

【语音合成】Tacotron-2 的实现实战试听