V
主页
面向文本无关说话人识别的跨模态视听协同学习
发布人
打开封面
下载高清视频
观看高清视频
视频下载器
说话人识别模型的可解释性-王东
多说话人交互场景中的目标说话人提取
1MB内存下移动说话人验证系统的极低比特量化
Xi-vector嵌入空间中的说话人识别与表征
基于新一代kaldi项目的语音识别应用实例-郭理勇 小米
面向复杂场景的说话人日志
对抗噪声标签的鲁棒说话人识别
还得看吴恩达!一口气讲透CNN、RNN、GAN、LSTM、YOLO、transformer等六大深度学习神经网路算法!真的不要太爽~(AI人工智能丨机器学习)
鲁棒说话人识别高级池化方法-MAK Man-Wai
基于距离的权重转移,用于从近场到远场的说话人验证模型的微调
特定人合成及变声与录音回放语音攻击检测
端到端语音到语音翻译中的零样本风格迁移
SEF-Net:不依赖于声纹Embedding的时域目标说话人分离网络
基于共振峰和基频缩放的可区分说话人匿名化
复杂场景下鲁棒伪造音检测及变声溯源-李明
基于随机分类器的小样本类别增量音频分类
利用基于帧级跨模态注意力的音视频Confomer的鲁棒音视频唤醒词识别
少走99%的弯路!0基础快速入门语音识别
基于深度聚类和图网络的声纹识别-何亮、许敏强
一个使用单事件声音的详细的音频-文本数据模拟管道
Amphion-开源的音频 、音乐和语音生成工具包-武执政
【语音识别】声学特征提取
基于数据增强的语音编辑改进ASR中的代码转换和命名实体识别
基于预训练的伪造语音检测研究进展-张鹏远
噪声与远场环境下的声纹识别
实时多人会话的语音识别-微软首席应用科学家-陈卓
基于自监督学习的高性能鲁棒说话人识别-钱彦旻
在基于多因素约束的低资源语音转换中传递源语音说话风格
通过声音事件检测增强音频描述中的时间关系
利用唤醒词参考语音的高效个人语音活动检测
基于元学习的声纹识别研究进展-王龙标
ICASSP 2023 论文预讲会 第四期 昆山杜克大学语音及多模态智能信息处理实验室专场 (SMIIPLab)
基于注意力融合瓶颈与扰动特征的高表现力语音转换模型
ReFlow-TTS:一个用于高保真的文本到语音的校正流模型
基于特征选择和文本嵌入的自发性粤语痴呆检测
图像分割领域怎么学才能快速出成果?迪哥梳理图像分割最佳学习路线,UNet/Deeplab/Mask2former/SAM图像分割算法全详解!
开源语音识别工具wenet 简介 张彬彬
基于副语言特征和预训练特征的跨语言阿尔茨海默症检测
Sherpa:新一代 Kaldi 部署框架
【音乐与音频处理】在学术计算规模上再现大型预训练语音模型-Shinji-WATANABE