【开源数据集】面向动态声学场景语音增强与声源定位任务的麦克风阵列音频数据集

发布人

开源地址：https://www.aishelltech.com/RealMAN
论文地址：https://arxiv.org/abs/2406.19959
GitHub：https://github.com/Audio-WestlakeU/RealMAN/tree/main

打开封面下载高清视频观看高清视频视频下载器

Amphion-开源的音频、音乐和语音生成工具包-武执政

实时互动数字人-语音对话

多说话人交互场景中的目标说话人提取

【声纹识别】什么是声纹识别？声纹识别发展历程怎样？

自定义语音唤醒中的关键词自适应声学模型剪枝

复杂场景下鲁棒伪造音检测及变声溯源-李明

4块GPU、不到3天训练出「开源版GPT-4o」基于LLaMA-3.1-8B，羊驼家族再添大将，实现低延迟/高质量的语音互动

语音识别基础：从声音到语音

ESPnet-SE开源工具介绍-钱彦旻上海交通大学

2021 SpeechHome 语音技术研讨会

感知难度的说话人识别数据增强

面向复杂场景的高可靠性声纹识别及其关联任务研究！-06

面向所有语音任务的通用语音模型-李宏毅(Hung-yi-LEE)

基于数据增强的语音编辑改进ASR中的代码转换和命名实体识别

基于原地卷积网络的前端信号处理算法张学良内蒙古大学

用于声学信号内容理解的机器学习算法前瞻 -李圣辰 -西交利物浦大学

ICASSP 2023 论文预讲会第一期清华大学语音与音频技术实验室专场

可以说知道这五个网站就没有找不到的数据集！特别是最后一个简直就是学术利器！-人工智能/深度学习/机器学习/数据集

什么是语音信号？

如何工程化一个语音开源项目：手把手带你实现开源声纹分割聚类项目 pyannote-audio 的工程化

基于多任务学习的异常感知的内群点建模及多尺度的异常值打分

【语音合成】声学模型数据（试听）

基于新一代kaldi项目的语音识别应用实例-郭理勇小米

VoxBlink:短视频上的大规模说话人验证数据集

面向复杂场景的高可靠性声纹识别及其关联任务研究！-04

基于音频辨别的对比学习在连续语音中的可定制关键词检测

第84集 | 模型训练技巧 | 如何处理大型数据集 | 批次大小、GPU 利用率与混合精度

面向神经声码器训练的一种合成语料生成方法

这么简单好用的 ROS 定位方法，确定不要试一下吗？！

西工大ASLP实验室语音生成模型新进展-西北工业大学谢磊老师

【声纹识别入门】声纹技术就是声纹识别吗？

面向复杂场景的高可靠性声纹识别及其关联任务研究！-05

宇树机器狗 Go2 运动控制数据的可视化，代码已开源

语音之家公开课 —《WeNet语音识别实战》课程交流

【开源项目】若依框架vue前后端分离版知识点讲解

域移下异常声音检测的分层元数据信息约束自监督学习

研究生必知的论文复现：如何跑通官方模型并替换为自己的数据集再跑通？——神经网络|机器学习|深度学习

【数字表亲】只需一张照片，真实世界秒变完全交互式的虚拟场景，可生成完全交互式场景和训练机器人策略，零样本部署于原始场景中

语音识别发展历程：深度学习时代

【语音合成】Tacotron-2 的实现实战试听

【开源数据集】面向动态声学场景语音增强与声源定位任务的麦克风阵列音频数据集

Amphion-开源的音频 、音乐和语音生成工具包-武执政

实时互动数字人-语音对话

多说话人交互场景中的目标说话人提取

【声纹识别】什么是声纹识别？声纹识别发展历程怎样？

自定义语音唤醒中的关键词自适应声学模型剪枝

复杂场景下鲁棒伪造音检测及变声溯源-李明

4块GPU、不到3天训练出「开源版GPT-4o」 基于LLaMA-3.1-8B，羊驼家族再添大将，实现低延迟/高质量的语音互动

语音识别基础：从声音到语音

ESPnet-SE开源工具介绍-钱彦旻 上海交通大学

2021 SpeechHome 语音技术研讨会

感知难度的说话人识别数据增强

面向复杂场景的高可靠性声纹识别及其关联任务研究！-06

面向所有语音任务的通用语音模型-李宏毅(Hung-yi-LEE)

基于数据增强的语音编辑改进ASR中的代码转换和命名实体识别

基于原地卷积网络的前端信号处理算法 张学良 内蒙古大学

用于声学信号内容理解的机器学习算法前瞻 -李圣辰 -西交利物浦大学

ICASSP 2023 论文预讲会 第一期 清华大学语音与音频技术实验室专场

可以说知道这五个网站就没有找不到的数据集！特别是最后一个简直就是学术利器！-人工智能/深度学习/机器学习/数据集

什么是语音信号？

如何工程化一个语音开源项目： 手把手带你实现开源声纹分割聚类项目 pyannote-audio 的工程化

基于多任务学习的异常感知的内群点建模及多尺度的异常值打分

【语音合成】声学模型数据（试听）

基于新一代kaldi项目的语音识别应用实例-郭理勇 小米

VoxBlink:短视频上的大规模说话人验证数据集

面向复杂场景的高可靠性声纹识别及其关联任务研究！-04

基于音频辨别的对比学习在连续语音中的可定制关键词检测

第84集 | 模型训练技巧 | 如何处理大型数据集 | 批次大小、GPU 利用率与混合精度

面向神经声码器训练的一种合成语料生成方法

这么简单好用的 ROS 定位方法，确定不要试一下吗？！

西工大ASLP实验室语音生成模型新进展-西北工业大学谢磊老师

【声纹识别入门】声纹技术就是声纹识别吗？

面向复杂场景的高可靠性声纹识别及其关联任务研究！-05

宇树机器狗 Go2 运动控制数据的可视化，代码已开源

语音之家公开课 —《WeNet语音识别实战》课程交流

【开源项目】若依框架vue前后端分离版知识点讲解

域移下异常声音检测的分层元数据信息约束自监督学习

研究生必知的论文复现：如何跑通官方模型并替换为自己的数据集再跑通？——神经网络|机器学习|深度学习

【数字表亲】只需一张照片，真实世界秒变完全交互式的虚拟场景，可生成完全交互式场景和训练机器人策略，零样本部署于原始场景中

语音识别发展历程：深度学习时代

【语音合成】Tacotron-2 的实现实战 试听

Amphion-开源的音频、音乐和语音生成工具包-武执政

4块GPU、不到3天训练出「开源版GPT-4o」基于LLaMA-3.1-8B，羊驼家族再添大将，实现低延迟/高质量的语音互动

ESPnet-SE开源工具介绍-钱彦旻上海交通大学

基于原地卷积网络的前端信号处理算法张学良内蒙古大学

ICASSP 2023 论文预讲会第一期清华大学语音与音频技术实验室专场

如何工程化一个语音开源项目：手把手带你实现开源声纹分割聚类项目 pyannote-audio 的工程化

基于新一代kaldi项目的语音识别应用实例-郭理勇小米

【语音合成】Tacotron-2 的实现实战试听