V
主页
语音情感识别中自监督特征的下游迁移研究
发布人
打开封面
下载高清视频
观看高清视频
视频下载器
浙大清华发布语音伪造检测框架SafeEar,内容隐私保护,语音造假无处遁形
Whisper终结者:Reverb ASR 语音识别和说话人分离方面新标杆 在前所未有的20万小时人工转录数据上进行训练 支持可定制的逐字转录
基于音频辨别的对比学习在连续语音中的可定制关键词检测
【语音识别】声学特征提取
具有目标说话人吸引子的端到端神经说话人分类的基于注意力的编解码器网络
入门语音合成,听这个课真的可以哦
说话人识别模型的可解释性-王东
利用基于帧级跨模态注意力的音视频Confomer的鲁棒音视频唤醒词识别
基于自监督学习表示的具有持久性口音记忆的口音识别
RaD-Net:一种用于语音信号改善的修复与降噪网络
基于数据增强的语音编辑改进ASR中的代码转换和命名实体识别
基于无监督学习的端到端无分层生成固定滤波器主动噪声控制
京东在监督对比学习语音识别中的实践
【闲话AI】语音识别的发展 陈果果
基于语音识别预训练的说话人识别方法
【荐】已经开到第四期了,端到端语音识别好课,新增语音大模型内容
深伪音频鉴别研究进展
圆桌:语音开源技术 张仕良 张彬彬 康魏
【实操】通过NVIDIA NEMO 训练语音AI模型(上)
多说话人交互场景中的目标说话人提取
【ICASSP】加入预训练模型的半监督声音事件检测
特定人合成及变声与录音回放语音攻击检测
利用基于熵的融合以及基于剪枝的网络架构优化改进多模态情感识别
面向L3DAS23挑战赛的通道流注意力机制网络
SlideSpeech:大规模幻灯片丰富的语音-视频语料库
TDT-KWS:基于标记和持续时间转换器的快速精准关键词检测系统
一种基于扩散模型(LDM)的风格语音转换方法 论文推荐
SponTTS:自发风格建模与迁移的文本到语音合成
基于注意力融合瓶颈与扰动特征的高表现力语音转换模型
基于多级域适配器的鲁棒跨域说话人验证技术
1MB内存下移动说话人验证系统的极低比特量化
以目标语音识别为例,弱监督语音预训练
SH-SSS丨面向有声读物的跨说话人语音风格迁移 — 李翔
【揭秘】京东语音识别技术基本情况介绍
跨语种的语音转换-武执正
基于跨模态对齐的从语音到歌声转换-李瑞琪 火山语音
声纹识别与语音防伪技术前沿及工作进展
基于序列胶囊网络的语音情感识别
开源语音识别工具wenet 简介 张彬彬
适应多语言ASR模型,以处理多个说话人