V
主页
DSE-TTS:面向跨语言语音合成的双说话人嵌入
发布人
打开封面
下载高清视频
观看高清视频
视频下载器
具有目标说话人吸引子的端到端神经说话人分类的基于注意力的编解码器网络
文本到音频的生成:技术和应用-刘豪赫(Haohe LIU)
SH-SSS丨面向有声读物的跨说话人语音风格迁移 — 李翔
【语音识别】声学特征提取
基于新一代kaldi项目的语音识别应用实例-郭理勇 小米
面向表现力语音合成的多尺度风格建模与生成-吴志勇
【语音合成】什么是语音合成?
【音乐与音频处理】什么是音乐理解?卡耐基梅隆大学 罗杰·B·丹嫩贝格(Roger-B.DANNENBERG)
ModelScope语音开源现状和语音语义多模态大模型研究进展 张仕良
ReFlow-TTS:一个用于高保真的文本到语音的校正流模型
【语音合成】Tacotron-2 的实现实战 试听
Sherpa:新一代 Kaldi 部署框架
基于语音噪声双流谱改善网络使用语音失真损失函数的鲁棒语音识别
跨语种的语音转换-武执正
基于副语言特征和预训练特征的跨语言阿尔茨海默症检测
【语音之家】AI产业沙龙——智能对话平台
音频生成-王文武
基于角空间中类感知注意机制对比学习的区分性说话人表征
标签噪声干扰下的说话人识别关键技术研究
基于语音预训练模型的无监督说话人识别方法-李琳
鲁棒说话人表征技术
【实操】通过NVIDIA NEMO 训练语音AI模型(上)
说话人分割聚类研究进展与展望
开源语音和 wenet-e2e 社区
基于混合预测编码与知识蒸馏的双模语音转换模型
在说话人验证中识别基于语音转换欺诈攻击的源说话人
交互式AI中语音技术实践与探索-万玉龙
说话人识别模型的可解释性-王东
什么是语音信号?
基于数据增强的语音编辑改进ASR中的代码转换和命名实体识别
多说话人语音识别中可感知边界的序列化输出训练
基于ControlVAE和扩散桥的语音合成可解释风格转换
基于语音识别预训练的说话人识别方法
【语音之家】AI产业沙龙—VoxSRC-22说话人识别挑战赛快商通方案介绍
应用于全带残余回声抑制的两步频带分割神经网络方法
TFCNet:用于语音分离的时频域校正网络
基于音频辨别的对比学习在连续语音中的可定制关键词检测
复杂声学场景下基于复数谱的语音增强和去混技术研究
基于序列胶囊网络的语音情感识别
ESPnet-SE开源工具介绍-钱彦旻 上海交通大学