V
主页
用于语音情感识别的多尺度时空Transformer模型
发布人
打开封面
下载高清视频
观看高清视频
视频下载器
如何工程化一个语音开源项目: 手把手带你实现开源声纹分割聚类项目 pyannote-audio 的工程化
【语音识别】声学特征提取
基于距离的权重转移,用于从近场到远场的说话人验证模型的微调
交互式AI中语音技术实践与探索-万玉龙
Whisper终结者:Reverb ASR 语音识别和说话人分离方面新标杆 在前所未有的20万小时人工转录数据上进行训练 支持可定制的逐字转录
基于视觉信息解耦的多模态语音分离模型
ModelScope语音开源现状和语音语义多模态大模型研究进展 张仕良
说话人识别模型的可解释性-王东
用于实时多通道语音增强的因果U-Net神经波束形成网络
基于多通道时空特征和知识蒸馏的鲁棒目标说话人提取研究
面向所有语音任务的通用语音模型-李宏毅(Hung-yi-LEE)
在说话人验证中识别基于语音转换欺诈攻击的源说话人
【揭秘】京东语音识别技术基本情况介绍
开源语音识别工具wenet 简介 张彬彬
基于多目标渐进聚类的半监督说话人识别域自适应
世界杯无障碍字幕直播间背后的流式语音技术 火山语音
对标OpenAI高级语音【Her】 开源实时多模态AI聊天机器人Moshi,语音对话延迟低至200毫秒!67页技术报告全公开 AI大神Karpathy盛赞
浙大清华发布语音伪造检测框架SafeEar,内容隐私保护,语音造假无处遁形
基于热词短语预测网络的热词语音识别
基于音频辨别的对比学习在连续语音中的可定制关键词检测
用于多通道语音分离的声源二维位置感知全神经波束模型
利用语音和双语文本联合预训练的语音到语音翻译模型
具有目标说话人吸引子的端到端神经说话人分类的基于注意力的编解码器网络
语音识别基础:从声音到语音
【实操】通过NVIDIA NEMO 训练语音AI模型(上)
【声纹识别】什么是声纹识别?声纹识别发展历程怎样?
Panel :语音技术新时代
Kaldi安装与样例流程介绍
利用基于帧级跨模态注意力的音视频Confomer的鲁棒音视频唤醒词识别
针对病理性发音的语音技术研究进展 秦勇 南开大学
TF-SepNet:一种用于低复杂度声学场景分类的卷积神经网络中的高效一维核设计
OpenAl:从Transformer的历史中塑造人工智能的未来
利用元数据辅助音频生成估计未知异常的无监督异常声音检测
超划算的语音课程,确定不来了解下?
Graph领域的MoE:AnyGraph
基于多通道训练和交叉信息融合的低资源端到端口音识别
面向表现力语音合成的多尺度风格建模与生成-吴志勇
仅需40个Token,高质量重建音频
利用文本-语音对比学习提出针对语音合成的韵律文本表征-叶振辉(火山语音)
基于多任务学习的异常感知的内群点建模及多尺度的异常值打分