V
主页
基于数据增强的语音编辑改进ASR中的代码转换和命名实体识别
发布人
打开封面
下载高清视频
观看高清视频
视频下载器
基于新一代kaldi项目的语音识别应用实例-郭理勇 小米
多说话人交互场景中的目标说话人提取
感知难度的说话人识别数据增强
多语言和代码转换语音识别的语言路由专家混合
ModelScope语音开源现状和语音语义多模态大模型研究进展 张仕良
Kaldi安装与样例流程介绍
Sherpa:新一代 Kaldi 部署框架
UniSplice:面向低资源ASR的通用跨语言数据拼接
提升Conformer-Transducer ASR系统的语音辅助多目标单元建模
具有目标说话人吸引子的端到端神经说话人分类的基于注意力的编解码器网络
ModelScope魔搭社区及其开源的语音AI模型
端到端语音到语音翻译中的零样本风格迁移
1MB内存下移动说话人验证系统的极低比特量化
说话人识别中的Hard Trials初步探索
音频生成-王文武
基于热词短语预测网络的热词语音识别
跨语种的语音转换-武执正
深伪音频鉴别研究进展
白玉兰开源:面向人工智能应用的开放数据集构建及许可协议-金耀辉 上海交通大学
基于注意力融合瓶颈与扰动特征的高表现力语音转换模型
实时多人会话的语音识别-微软首席应用科学家-陈卓
在说话人验证中识别基于语音转换欺诈攻击的源说话人
基于自监督学习表示的具有持久性口音记忆的口音识别
【语音识别】GigaSpeech 数据集 简介 陈果果
西工大-大象声科个性化语音增强系统
基于随机分类器的小样本类别增量音频分类
【语音之家】AI产业沙龙—腾讯AI Lab语音技术进展分享报告
Amphion-开源的音频 、音乐和语音生成工具包-武执政
基于序列胶囊网络的语音情感识别
基于GAN的无监督机器音频异常检测与定位
ICASSP 2023 论文预讲会 第九期 天津大学天津市认知计算与应用重点实验室专场
多通道、多人及非基于声纹编码向量的特定人语音抽取-李明
Kaldi中的神经网络
基于conformer的热词增强方法
RaD-Net:一种用于语音信号改善的修复与降噪网络
基于子带交互的语音增强方法Inter-SubNet
MLCA-AVSR:基于多层交叉注意力融合的视听语音识别
多说话人语音识别中可感知边界的序列化输出训练
【唤醒词识别】数据预处理代码
VE-KWS:基于视觉信息增强的端到端视听关键词检出