V
主页
基于无监督学习的端到端无分层生成固定滤波器主动噪声控制
发布人
生成式固定滤波器有源噪声控制 (GFANC) 可以通过协处理器和实时控制器之间的有效协调来实现无延迟噪声控制。 但是,协处理器中的一维卷积神经网络 (1D CNN) 需要使用有标签的噪声数据集进行训练。 给噪声数据打标签可能会占用大量资源,并且可能会引入一些不准确标签。 因此,我们提出了一种无监督 GFANC 方法来简化一维 CNN 的训练过程并增强实用性。 在训练期间,协处理器和实时控制器被集成到端到端可导的 ANC 系统中。 这使我们能够使用累积的平方误差信号作为训练 1D CNN 的损失。 通过这种无监督学习范式,无监督 GFANC 方法不仅省略了打标签过程,而且在真实噪声实验中与有监督 GFANC 方法相比,表现出更好的降噪性能。
打开封面
下载高清视频
观看高清视频
视频下载器
基于多目标渐进聚类的半监督说话人识别域自适应
域移下异常声音检测的分层元数据信息约束自监督学习
【清华】从0开始学Kaldi,丝滑入门语音识别,语音识别原来如此简单
利用唤醒词参考语音的高效个人语音活动检测
利用元数据辅助音频生成估计未知异常的无监督异常声音检测
通过特征解纠缠技术进行跨城市和设备的声学场景分类
基于GAN的无监督机器音频异常检测与定位
自适应过滤器的元学习初始化背后是什么?-是一种加速自适应多通道主动噪声控制收敛的简单方法
非对称干净片段引导的自监督学习用于声纹识别
【ICASSP2024】基于记忆感知和Seq2Seq架构的说话人日志系统
基于平行语料的可逆变声
一种端到端脑电图通道选择的脑辅助语音增强方法
利用基于熵的融合以及基于剪枝的网络架构优化改进多模态情感识别
【语音识别】声学特征提取
通过扬声器提示调优和适配器表示的双参数高效微调【香港理工大学】
VoxBlink:短视频上的大规模说话人验证数据集
克服通信限制的实用分布式有源噪声控制算法
突破SSL语音表示中无监督单元发现的极限
Amphion-开源的音频 、音乐和语音生成工具包-武执政
多说话人交互场景中的目标说话人提取
2022年声纹识别研究与应用学术研讨会
ICASSP 2023 论文预讲会 第四期 昆山杜克大学语音及多模态智能信息处理实验室专场 (SMIIPLab)
如何用开源工具实现一个完整的语音识别系统?
基于ControlVAE和扩散桥的语音合成可解释风格转换
Sherpa:新一代 Kaldi 部署框架
Trimtail:语音识别延迟优化中的暴利美学
用于实时多通道语音增强的因果U-Net神经波束形成网络
面向表现力语音合成的多尺度风格建模与生成-吴志勇
低资源小语种自动语音识别:清华THUEE队伍在OpenASR20的系统描述
说话人识别中的Hard Trials初步探索
【ICASSP】超短注册时间的目标说话人提取模型
基于语音噪声双流谱改善网络使用语音失真损失函数的鲁棒语音识别
VISinger:高保真端到端歌声合成模型
交互式AI中语音技术实践与探索-万玉龙
基于自适应和多级分解双线性池的注意网络信息融合视听情绪识别
面向神经声码器训练的一种合成语料生成方法
京东智能语音交互技术进展及应用
用对比学习增强流式与非流式模型
CMNet:探索声学回声消除中目标正面和目标负面负面的相关性
面向会议的对话语音识别