面向文本无关说话人识别的跨模态视听协同学习 - 视频下载 Video Downloader

面向文本无关说话人识别的跨模态视听协同学习

发布人

打开封面下载高清视频观看高清视频视频下载器

说话人识别模型的可解释性-王东

多说话人交互场景中的目标说话人提取

1MB内存下移动说话人验证系统的极低比特量化

Xi-vector嵌入空间中的说话人识别与表征

基于新一代kaldi项目的语音识别应用实例-郭理勇小米

面向复杂场景的说话人日志

对抗噪声标签的鲁棒说话人识别

还得看吴恩达！一口气讲透CNN、RNN、GAN、LSTM、YOLO、transformer等六大深度学习神经网路算法！真的不要太爽~（AI人工智能丨机器学习）

鲁棒说话人识别高级池化方法-MAK Man-Wai

基于距离的权重转移，用于从近场到远场的说话人验证模型的微调

特定人合成及变声与录音回放语音攻击检测

端到端语音到语音翻译中的零样本风格迁移

SEF-Net:不依赖于声纹Embedding的时域目标说话人分离网络

基于共振峰和基频缩放的可区分说话人匿名化

复杂场景下鲁棒伪造音检测及变声溯源-李明

基于随机分类器的小样本类别增量音频分类

利用基于帧级跨模态注意力的音视频Confomer的鲁棒音视频唤醒词识别

少走99%的弯路！0基础快速入门语音识别

基于深度聚类和图网络的声纹识别-何亮、许敏强

一个使用单事件声音的详细的音频-文本数据模拟管道

Amphion-开源的音频、音乐和语音生成工具包-武执政

【语音识别】声学特征提取

基于数据增强的语音编辑改进ASR中的代码转换和命名实体识别

基于预训练的伪造语音检测研究进展-张鹏远

噪声与远场环境下的声纹识别

实时多人会话的语音识别-微软首席应用科学家-陈卓

基于自监督学习的高性能鲁棒说话人识别-钱彦旻

在基于多因素约束的低资源语音转换中传递源语音说话风格

通过声音事件检测增强音频描述中的时间关系

利用唤醒词参考语音的高效个人语音活动检测

基于元学习的声纹识别研究进展-王龙标

ICASSP 2023 论文预讲会第四期昆山杜克大学语音及多模态智能信息处理实验室专场 (SMIIPLab)

基于注意力融合瓶颈与扰动特征的高表现力语音转换模型

ReFlow-TTS：一个用于高保真的文本到语音的校正流模型

基于特征选择和文本嵌入的自发性粤语痴呆检测

图像分割领域怎么学才能快速出成果？迪哥梳理图像分割最佳学习路线，UNet/Deeplab/Mask2former/SAM图像分割算法全详解！

开源语音识别工具wenet 简介张彬彬

基于副语言特征和预训练特征的跨语言阿尔茨海默症检测

Sherpa:新一代 Kaldi 部署框架

【音乐与音频处理】在学术计算规模上再现大型预训练语音模型-Shinji-WATANABE