V
主页
用于多通道语音分离的声源二维位置感知全神经波束模型
发布人
打开封面
下载高清视频
观看高清视频
视频下载器
【清华】从0开始学Kaldi,丝滑入门语音识别,语音识别原来如此简单
具有目标说话人吸引子的端到端神经说话人分类的基于注意力的编解码器网络
基于距离的权重转移,用于从近场到远场的说话人验证模型的微调
多通道声信号感知与处理:原理、现状与挑战 陈景东 西北工业大学
基于视觉信息解耦的多模态语音分离模型
【语音识别】声学特征提取
用于语音情感识别的多尺度时空Transformer模型
TFCNet:用于语音分离的时频域校正网络
Whisper终结者:Reverb ASR 语音识别和说话人分离方面新标杆 在前所未有的20万小时人工转录数据上进行训练 支持可定制的逐字转录
语音之家公开课 — 语音分离的神经网络方法 Speech Separation with Neural Network(邹月娴)
用于声学信号内容理解的机器学习算法前瞻 -李圣辰 -西交利物浦大学
2021年声纹识别研究与应用学术研讨会
多说话人交互场景中的目标说话人提取
多通道、多人及非基于声纹编码向量的特定人语音抽取-李明
应用于全带残余回声抑制的两步频带分割神经网络方法
端到端语音到语音翻译中的零样本风格迁移
深度生成固定滤波器的有源噪声控制
通过NVIDIA NEMO 训练语音AI模型(下)
说话人识别模型的可解释性-王东
Amphion-开源的音频 、音乐和语音生成工具包-武执政
基于角空间中类感知注意机制对比学习的区分性说话人表征
【音乐与音频处理】在学术计算规模上再现大型预训练语音模型-Shinji-WATANABE
将子词发音与唇形联合嵌入感知视听语音增强
实现选择性听觉注意的单耳语音分离和说话人识别的深度学习解决方案-李海洲
世界杯无障碍字幕直播间背后的流式语音技术 火山语音
自定义语音唤醒中的关键词自适应声学模型剪枝
深伪音频鉴别研究进展
利用文本-语音对比学习提出针对语音合成的韵律文本表征-叶振辉(火山语音)
【实操】通过NVIDIA NEMO 训练语音AI模型(上)
针对病理性发音的语音技术研究进展 秦勇 南开大学
【ICASSP】面向视频编码的畸变感知的神经网络插值滤波器
Kaldi中的神经网络
基于SepFormer的交叉注意力音视频目标说话人语音提取方法
西工大-大象声科个性化语音增强系统
声纹识别与语音防伪技术前沿及工作进展
自适应过滤器的元学习初始化背后是什么?-是一种加速自适应多通道主动噪声控制收敛的简单方法
4块GPU、不到3天训练出「开源版GPT-4o」 基于LLaMA-3.1-8B,羊驼家族再添大将,实现低延迟/高质量的语音互动
多说话人语音识别中可感知边界的序列化输出训练
ICASSP 2023 论文预讲会 第三期 清华大学人机语音交互实验室专场(THUHCSI)(下)
复杂声学场景下基于复数谱的语音增强和去混技术研究