自动音频字幕的图形注意事项

发布人

自动音频字幕是一项跨模态音频内容理解任务，旨在通过自然语言描述音频信号蕴含信息，使机器具备理解表达音频场景事件语意内容的能力。现有的主流自动音频字幕方法几乎均采用大规模音频预训练模型(如：PANNs)进行音频特征表示，借助其音频事件分析能力，提升自动音频字幕性能。但PANNs模型受限于所采用的卷积计算机制，缺乏对音频特征时序上下文关系的建模能力，导致现有主流方法的性能受限。为此，本文提出了一种基于图注意力机制的自动音频字幕方法(GraphAC)，所提方法通过构建音频节点邻接图，实现音频信号中的时序上下文信息关系建模，并通过top-k掩码机制过滤与音频场景内容无关信息，由此强化与音频场景事件相关的上下文语意关联，进而提高音频描述的准确性和流畅性。实验结果表明，GraphAC在自动音频字幕任务上获得了优于现有的基于PANNs音频编码器的主流方法的性能表现，由此验证了图注意力机制在捕获音频时序上下文信息的有效性。本文方法所构建集成系统在DCASE 2022 Challenge自动音频字幕赛道(Task 6A)取得了国际第6名。

打开封面下载高清视频观看高清视频视频下载器

自动音频字幕的图形注意事项

【ICASSP2024】基于记忆感知和Seq2Seq架构的说话人日志系统

通过扬声器提示调优和适配器表示的双参数高效微调【香港理工大学】

基于多通道时空特征和知识蒸馏的鲁棒目标说话人提取研究

SlideSpeech：大规模幻灯片丰富的语音-视频语料库

利用基于熵的融合以及基于剪枝的网络架构优化改进多模态情感识别

音频生成-王文武

【荐】已经开到第四期了，端到端语音识别好课，新增语音大模型内容

MISP 2023挑战中视听目标扬声器提取的XMUSPEECH系统

仅需40个Token，高质量重建音频

交互式AI中语音技术实践与探索-万玉龙

一种端到端脑电图通道选择的脑辅助语音增强方法

TDT-KWS：基于标记和持续时间转换器的快速精准关键词检测系统

【Wenet语音识别】功能架构和模型结构

感知难度的说话人识别数据增强

文本到音频的生成:技术和应用-刘豪赫(Haohe LIU)

ReFlow-TTS：一个用于高保真的文本到语音的校正流模型

Trimtail：语音识别延迟优化中的暴利美学

声音成分分析及其下游应用

利用元数据辅助音频生成估计未知异常的无监督异常声音检测

Sherpa:新一代 Kaldi 部署框架

【语音合成】Tacotron-2 的实现实战 试听

基于语音识别预训练的说话人识别方法

SponTTS：自发风格建模与迁移的文本到语音合成

基于语音噪声双流谱改善网络使用语音失真损失函数的鲁棒语音识别

ICASSP 2023 论文预讲会 第三期 清华大学人机语音交互实验室专场（THUHCSI）（下）

Daniel Povey|Zipformer:一种改进的语音识别编码器

基于前后端联合训练的鲁棒伪造语音检测系统

基于ControlVAE和扩散桥的语音合成可解释风格转换

通过声音事件检测增强音频描述中的时间关系

B站首个WeNet语音识别课程，WeNet核心团队亲授

ICASSP 2023 论文预讲会 第七期 西北工业大学音频语音与语言处理研究组（NPU-ASLP）专场（上）

多语言和代码转换语音识别的语言路由专家混合

用于声学信号内容理解的机器学习算法前瞻 -李圣辰 -西交利物浦大学

如何用开源工具实现一个完整的语音识别系统？

说话人识别模型的可解释性-王东

【ICASSP】加入预训练模型的半监督声音事件检测

音乐和音频数据的学习方法-Emmanouil-BENETOS

AI 视频生成 PixVerse V2.5

针对部分篡改音频的波形边界检测系统

圆桌：语音开源技术 张仕良 张彬彬 康魏

【语音合成】Tacotron-2 的实现实战试听

ICASSP 2023 论文预讲会第三期清华大学人机语音交互实验室专场（THUHCSI）（下）

ICASSP 2023 论文预讲会第七期西北工业大学音频语音与语言处理研究组（NPU-ASLP）专场（上）

圆桌：语音开源技术张仕良张彬彬康魏