基于数据增强的语音编辑改进ASR中的代码转换和命名实体识别 - 视频下载 Video Downloader

基于数据增强的语音编辑改进ASR中的代码转换和命名实体识别

发布人

打开封面下载高清视频观看高清视频视频下载器

基于新一代kaldi项目的语音识别应用实例-郭理勇小米

多说话人交互场景中的目标说话人提取

感知难度的说话人识别数据增强

多语言和代码转换语音识别的语言路由专家混合

ModelScope语音开源现状和语音语义多模态大模型研究进展张仕良

Kaldi安装与样例流程介绍

Sherpa:新一代 Kaldi 部署框架

UniSplice:面向低资源ASR的通用跨语言数据拼接

提升Conformer-Transducer ASR系统的语音辅助多目标单元建模

具有目标说话人吸引子的端到端神经说话人分类的基于注意力的编解码器网络

ModelScope魔搭社区及其开源的语音AI模型

端到端语音到语音翻译中的零样本风格迁移

1MB内存下移动说话人验证系统的极低比特量化

说话人识别中的Hard Trials初步探索

音频生成-王文武

基于热词短语预测网络的热词语音识别

跨语种的语音转换-武执正

深伪音频鉴别研究进展

白玉兰开源:面向人工智能应用的开放数据集构建及许可协议-金耀辉上海交通大学

基于注意力融合瓶颈与扰动特征的高表现力语音转换模型

实时多人会话的语音识别-微软首席应用科学家-陈卓

在说话人验证中识别基于语音转换欺诈攻击的源说话人

基于自监督学习表示的具有持久性口音记忆的口音识别

【语音识别】GigaSpeech 数据集简介陈果果

西工大-大象声科个性化语音增强系统

基于随机分类器的小样本类别增量音频分类

【语音之家】AI产业沙龙—腾讯AI Lab语音技术进展分享报告

Amphion-开源的音频、音乐和语音生成工具包-武执政

基于序列胶囊网络的语音情感识别

基于GAN的无监督机器音频异常检测与定位

ICASSP 2023 论文预讲会第九期天津大学天津市认知计算与应用重点实验室专场

多通道、多人及非基于声纹编码向量的特定人语音抽取-李明

Kaldi中的神经网络

基于conformer的热词增强方法

RaD-Net：一种用于语音信号改善的修复与降噪网络

基于子带交互的语音增强方法Inter-SubNet

MLCA-AVSR：基于多层交叉注意力融合的视听语音识别

多说话人语音识别中可感知边界的序列化输出训练

【唤醒词识别】数据预处理代码

VE-KWS:基于视觉信息增强的端到端视听关键词检出