V
主页
京东 11.11 红包
声音成分分析及其下游应用
发布人
声音成分分析是机器学习领域的重要研究方向,其应用场景非常广泛,近年来得到了越来越多的学者的关注。本次报告将分享我们在该领域做的一些工作。此外,我们将声音成分分析技术应用于声源分离(Audio Source Separation)和声音活动检测(Voice Activity Detection)等领域上,取代了传统方法。实验表明新方法在和传统方法的对比中具有显著优势。本次报告中也将展示若干Demo和已上线的应用。
打开封面
下载高清视频
观看高清视频
视频下载器
Sherpa:新一代 Kaldi 部署框架
【语音识别】声学特征提取
入门语音合成,听这个课真的可以哦
基于混合预测编码与知识蒸馏的双模语音转换模型
音频生成-王文武
基于新一代kaldi项目的语音识别应用实例-郭理勇 小米
实时多人会话的语音识别-微软首席应用科学家-陈卓
【语音之家】AI产业沙龙—语音技术在贝壳的应用
基于ControlVAE和扩散桥的语音合成可解释风格转换
打造低延时、高精度的腾讯会议智能语音识别系统
【语音之家】AI产业沙龙—智能语音技术在美团的应用实践
深度生成固定滤波器的有源噪声控制
应用于全带残余回声抑制的两步频带分割神经网络方法
低资源小语种自动语音识别:清华THUEE队伍在OpenASR20的系统描述
通过NVIDIA NEMO 训练语音AI模型(下)
Panel :语音技术新时代
腾讯会议的实时音频技术介绍和展望 腾讯天籁实验室 余涛
基于语音噪声双流谱改善网络使用语音失真损失函数的鲁棒语音识别
基于自适应和多级分解双线性池的注意网络信息融合视听情绪识别
基于多频带时频注意力的复调音乐旋律提取
鲁棒说话人表征技术
【声纹识别入门】声纹技术就是声纹识别吗?
CQNV:低比特率混合编解码器架构
Trimtail:语音识别延迟优化中的暴利美学
MARBLE:通用评价的音乐音频表现基准-马英浩(Yinghao-MA)
ICASSP 2023 论文预讲会 第二期 清华大学人机语音交互实验室专场(上)
面向会议的对话语音识别
具有目标说话人吸引子的端到端神经说话人分类的基于注意力的编解码器网络
1MB内存下移动说话人验证系统的极低比特量化
基于伪孪生网络的音色保留的说话人识别黑盒对抗攻击
【清华】从0开始学Kaldi,丝滑入门语音识别,语音识别原来如此简单
【声纹识别入门】ASV-Subtools工具 特征提取
说话人识别中的Hard Trials初步探索
SH-SSS丨端到端音视频说话人日志网络 — 何茂奎
kaldi之父 Daniel-Povey:Next-Gen Kaldi: Status and Near-term Plans
Amphion-开源的音频 、音乐和语音生成工具包-武执政
语音识别发展历程:从模式匹配到统计模型
基于音频辨别的对比学习在连续语音中的可定制关键词检测
语音AIGC技术进展-音频技术在喜马拉雅的研发和落地应用-卢恒
揭秘DeepShip:水声识别领域的突破性数据集 大规模的真实世界水下录音数据集