突破SSL语音表示中无监督单元发现的极限 - 视频下载 Video Downloader

京东 11.11 红包

突破SSL语音表示中无监督单元发现的极限

发布人

打开封面下载高清视频观看高清视频视频下载器

ModelScope语音开源现状和语音语义多模态大模型研究进展张仕良

音频生成-王文武

语音AIGC技术进展-音频技术在喜马拉雅的研发和落地应用-卢恒

【ICASSP】加入预训练模型的半监督声音事件检测

多通道、多人及非基于声纹编码向量的特定人语音抽取-李明

【语音之家】AI产业沙龙 —解读火山语音团队在国际顶会ACL2023的创新突破

RaD-Net：一种用于语音信号改善的修复与降噪网络

【音乐与音频处理】什么是音乐理解？卡耐基梅隆大学罗杰·B·丹嫩贝格（Roger-B.DANNENBERG）

AlSHELL-Turbo：多模态AI模型数据集

Daniel Povey|Zipformer:一种改进的语音识别编码器

高速高质量零资源歌声合成-雪巍

音乐和音频数据的学习方法-Emmanouil-BENETOS

Amphion-开源的音频、音乐和语音生成工具包-武执政

【IACSSP】文本表征预训练中的启发式掩码方案

【大模型】认知导向的视听觉大语言模型

通过扬声器提示调优和适配器表示的双参数高效微调【香港理工大学】

基于无监督学习的端到端无分层生成固定滤波器主动噪声控制

VoxBlink:短视频上的大规模说话人验证数据集

如何工程化一个语音开源项目：手把手带你实现开源声纹分割聚类项目 pyannote-audio 的工程化

域移下异常声音检测的分层元数据信息约束自监督学习

AI算法赋能海天瑞声高质量数据生产-邵志明

揭秘DeepShip：水声识别领域的突破性数据集大规模的真实世界水下录音数据集

字节发布音乐大模型 Seed-Music，10秒录音变身歌声，音乐创作GPT 时刻到来！

用于语音情感识别的多尺度时空Transformer模型

面向神经声码器训练的一种合成语料生成方法

【授权转载】【李宏毅】【生成式AI導論 2024】第1講：生成式AI是什麼？

如何用GPT Store构建自己的GPT代理、操作和插件

车圈最大AI「黑马」吉利闯入语音合成大模型赛道自研语音大模型登顶性能超SOTA 10% 跨语种无缝切换车车再也不是听不懂方言的人工智障了呢

少走99%的弯路！0基础快速入门语音识别

【ICASSP2024】基于记忆感知和Seq2Seq架构的说话人日志系统

Discussion：生成音频AI和研究社区、艺术产业、公众.mp4

基于多级域适配器的鲁棒跨域说话人验证技术

人和AI可进行自然的聊天，开源情感语音模型GLM-4-Voice，可实时语音对话，在情绪感知、情感共鸣、情绪表达、多语言、多方言等方面实现突破

多说话人交互场景中的目标说话人提取

基于GAN的无监督机器音频异常检测与定位

TDT-KWS：基于标记和持续时间转换器的快速精准关键词检测系统

基于多目标渐进聚类的半监督说话人识别域自适应

TFCNet：用于语音分离的时频域校正网络

ModelScope魔搭社区及其开源的语音AI模型

基于SepFormer的交叉注意力音视频目标说话人语音提取方法