V
主页
西工大-大象声科个性化语音增强系统
发布人
打开封面
下载高清视频
观看高清视频
视频下载器
复杂声学场景下基于复数谱的语音增强和去混技术研究
【语音识别】声学特征提取
Sherpa:新一代 Kaldi 部署框架
基于语音噪声双流谱改善网络使用语音失真损失函数的鲁棒语音识别
开源语音识别工具wenet 简介 张彬彬
音频生成-王文武
【语音之家】AI产业沙龙—语音技术在贝壳的应用
ESPnet-SE开源工具介绍-钱彦旻 上海交通大学
语音识别基础:从声音到语音
基于混合预测编码与知识蒸馏的双模语音转换模型
面向表现力语音合成的多尺度风格建模与生成-吴志勇
基于自然语言描述的跨说话人语音风格转换
一种端到端脑电图通道选择的脑辅助语音增强方法
基于conformer的热词增强方法
TDT-KWS:基于标记和持续时间转换器的快速精准关键词检测系统
基于随机分类器的小样本类别增量音频分类
Discussion:生成音频AI和研究社区、艺术产业 、公众.mp4
端到端语音到语音翻译中的零样本风格迁移
声纹识别与语音防伪技术前沿及工作进展
Whisper终结者:Reverb ASR 语音识别和说话人分离方面新标杆 在前所未有的20万小时人工转录数据上进行训练 支持可定制的逐字转录
ICASSP 2023 论文预讲会 第六期 新加坡南洋理工大学语音实验室专场(DSP Lab)
基于注意力融合瓶颈与扰动特征的高表现力语音转换模型
【语音之家】AI产业沙龙—AI语音赋能产业数字化新场景
鲁棒说话人识别高级池化方法-MAK Man-Wai
MARBLE:通用评价的音乐音频表现基准-马英浩(Yinghao-MA)
标签噪声干扰下的说话人识别关键技术研究
鲁棒说话人表征技术
仅需40个Token,高质量重建音频
面向神经声码器训练的一种合成语料生成方法
【语音之家】AI产业沙龙—腾讯AI Lab语音技术进展分享报告
音频内容生成:构建数字化人类、人性化人工智能-雪巍(Wei-XUE)
圆桌:音频与大模型(欧智坚 何磊 钱彦旻 易江燕 栾剑 张超)
语音之家公开课 —《WeNet语音识别实战》课程交流
语音AIGC技术进展-音频技术在喜马拉雅的研发和落地应用-卢恒
多通道、多人及非基于声纹编码向量的特定人语音抽取-李明
SEF-Net:不依赖于声纹Embedding的时域目标说话人分离网络
域移下异常声音检测的分层元数据信息约束自监督学习
基于多任务学习的异常感知的内群点建模及多尺度的异常值打分
针对病理性发音的语音技术研究进展 秦勇 南开大学
复杂场景下鲁棒伪造音检测及变声溯源-李明