融合前跨模态语义对齐（CSAF）方法改善端到端口语理解 - 视频下载 Video Downloader

融合前跨模态语义对齐（CSAF）方法改善端到端口语理解

发布人

打开封面下载高清视频观看高清视频视频下载器

【清华】从0开始学Kaldi，丝滑入门语音识别，语音识别原来如此简单

VISinger：高保真端到端歌声合成模型

通过扬声器提示调优和适配器表示的双参数高效微调【香港理工大学】

一种端到端脑电图通道选择的脑辅助语音增强方法

文本到音频的生成:技术和应用-刘豪赫(Haohe LIU)

高速高质量零资源歌声合成-雪巍

利用基于帧级跨模态注意力的音视频Confomer的鲁棒音视频唤醒词识别

基于ControlVAE和扩散桥的语音合成可解释风格转换

【音乐与音频处理】什么是音乐理解？卡耐基梅隆大学罗杰·B·丹嫩贝格（Roger-B.DANNENBERG）

非对称干净片段引导的自监督学习用于声纹识别

Sherpa:新一代 Kaldi 部署框架

基于多通道时空特征和知识蒸馏的鲁棒目标说话人提取研究

基于多目标渐进聚类的半监督说话人识别域自适应

具有频率和时间激励网络的双通道异常声音检测框架

基于语音噪声双流谱改善网络使用语音失真损失函数的鲁棒语音识别

ModelScope魔搭社区及其开源的语音AI模型

如何工程化一个语音开源项目：手把手带你实现开源声纹分割聚类项目 pyannote-audio 的工程化

深度生成固定滤波器的有源噪声控制

利用唤醒词参考语音的高效个人语音活动检测

具有目标说话人吸引子的端到端神经说话人分类的基于注意力的编解码器网络

通过特征解纠缠技术进行跨城市和设备的声学场景分类

基于SepFormer的交叉注意力音视频目标说话人语音提取方法

ChatGPT对口语理解的鲁棒性如何?

仅需40个Token，高质量重建音频

Muzic:建立一个多才多艺的音乐人工智能助手-谭旭(Xu-TAN)

基于自适应和多级分解双线性池的注意网络信息融合视听情绪识别

ICASSP 2023 论文预讲会第四期昆山杜克大学语音及多模态智能信息处理实验室专场 (SMIIPLab)

基于视觉信息解耦的多模态语音分离模型

低延迟非自回归语音识别方法

【声纹识别】什么是声纹识别？声纹识别发展历程怎样？

基于conformer的热词增强方法

结合视觉信息的端到端语音翻译-任意火山语音

基于自然语言描述的跨说话人语音风格转换

用对比学习增强流式与非流式模型

CMNet：探索声学回声消除中目标正面和目标负面负面的相关性

基于热词短语预测网络的热词语音识别

【ICASSP2024】基于记忆感知和Seq2Seq架构的说话人日志系统

自适应过滤器的元学习初始化背后是什么？-是一种加速自适应多通道主动噪声控制收敛的简单方法

通过声音事件检测增强音频描述中的时间关系

关于AI语音圈的顶会的ICASSP，你需要知道……