V
主页
基于SepFormer的交叉注意力音视频目标说话人语音提取方法
发布人
打开封面
下载高清视频
观看高清视频
视频下载器
具有目标说话人吸引子的端到端神经说话人分类的基于注意力的编解码器网络
【清华】从0开始学Kaldi,丝滑入门语音识别,语音识别原来如此简单
多说话人交互场景中的目标说话人提取
Whisper终结者:Reverb ASR 语音识别和说话人分离方面新标杆 在前所未有的20万小时人工转录数据上进行训练 支持可定制的逐字转录
基于距离的权重转移,用于从近场到远场的说话人验证模型的微调
震惊到我!AI文本转语音居然这么像真人!用来做配音简直逆天!AI一键文本转语音 ChatTTS 离线版
基于无监督学习的端到端无分层生成固定滤波器主动噪声控制
【无限制AI风月】ai聊天根本没限制!
基于子带交互的语音增强方法Inter-SubNet
ReFlow-TTS:一个用于高保真的文本到语音的校正流模型
车圈最大AI「黑马」吉利 闯入语音合成大模型赛道 自研语音大模型登顶 性能超SOTA 10% 跨语种无缝切换 车车再也不是听不懂方言的人工智障了呢
面向L3DAS23挑战赛的通道流注意力机制网络
说话人识别中的Hard Trials初步探索
MISP 2023挑战中视听目标扬声器提取的XMUSPEECH系统
面向神经声码器训练的一种合成语料生成方法
1MB内存下移动说话人验证系统的极低比特量化
基于注意力融合瓶颈与扰动特征的高表现力语音转换模型
ModelScope语音开源现状和语音语义多模态大模型研究进展 张仕良
基于多通道时空特征和知识蒸馏的鲁棒目标说话人提取研究
【ICASSP】超短注册时间的目标说话人提取模型
提升Conformer-Transducer ASR系统的语音辅助多目标单元建模
用于语音情感识别的多尺度时空Transformer模型
圆桌:语音开源技术 张仕良 张彬彬 康魏
SlideSpeech:大规模幻灯片丰富的语音-视频语料库
交互式AI中语音技术实践与探索-万玉龙
面向文本无关说话人识别的跨模态视听协同学习
少走99%的弯路!0基础快速入门语音识别
我让六个AI合租,居然出了个海王?
实测 OpenAI 高级语音功能 & 常见问题解答
【荐】已经开到第四期了,端到端语音识别好课,新增语音大模型内容
【声纹识别】什么是声纹识别?声纹识别发展历程怎样?
在基于多因素约束的低资源语音转换中传递源语音说话风格
多说话人语音识别中可感知边界的序列化输出训练
基于伪孪生网络的音色保留的说话人识别黑盒对抗攻击
多分辨率频率编码器和解码器辅助的时域语音增强
应用于全带残余回声抑制的两步频带分割神经网络方法
Sherpa:新一代 Kaldi 部署框架
在说话人验证中识别基于语音转换欺诈攻击的源说话人
结合视觉信息的端到端语音翻译-任意 火山语音
ModelScope魔搭社区及其开源的语音AI模型