V
主页
SH-SSS丨JSA-TOD:一种新型半监督对话系统,20%标注即接近全监督效果 — 蔡予诚
发布人
本文介绍清华大学语音处理与机器智能实验室(Speech Processing and Machine Intelligence, SPMI)与中国移动研究院的联合工作 — JSA-TOD:一种基于联合随机近似(JSA)算法的新型半监督对话系统。该系统在Multi-WOZ2.1数据集上显著超越广泛使用的变分算法,仅利用20%标注即接近全监督效果。该工作已被对话领域的国际会议SIGDIAL 2022录用,论文的作者是蔡予诚、刘红、欧智坚、黄毅、冯俊兰。
打开封面
下载高清视频
观看高清视频
视频下载器
SH-SSS丨从人设到音色——基于说话人属性特征的语音合成 — 杨智涵
SH-SSS丨面向有声读物的跨说话人语音风格迁移 — 李翔
基于多目标渐进聚类的半监督说话人识别域自适应
SH-SSS丨CUSIDE:分块、模拟未来、解码的流式语音识别新框架 — 安柯宇
SH-SSS丨跨年龄声纹识别:学习年龄不变的说话人特征 — 覃晓逸
CCF语音对话与听觉专委会2021学术年会
非对称干净片段引导的自监督学习用于声纹识别
多说话人交互场景中的目标说话人提取
Amphion-开源的音频 、音乐和语音生成工具包-武执政
OpenAl:从Transformer的历史中塑造人工智能的未来
【ICASSP】超短注册时间的目标说话人提取模型
【语音识别】声学特征提取
基于GAN的无监督机器音频异常检测与定位
【语音之家】AI产业沙龙——语音&音乐技术在字节跳动平台的应用
【语音之家】AI技术沙龙—语音增强
基于多通道时空特征和知识蒸馏的鲁棒目标说话人提取研究
TF-SepNet:一种用于低复杂度声学场景分类的卷积神经网络中的高效一维核设计
【语音之家】AI产业沙龙—AI语音赋能产业数字化新场景
变分自编码器可视化解释
2024年超好用的九大AI工具!免费且强大!(下集)
如何工程化一个语音开源项目: 手把手带你实现开源声纹分割聚类项目 pyannote-audio 的工程化
以目标语音识别为例,弱监督语音预训练
基于原地卷积网络的前端信号处理算法 张学良 内蒙古大学
京东在监督对比学习语音识别中的实践
Sherpa:新一代 Kaldi 部署框架
关于AI语音圈的顶会的ICASSP,你需要知道……
基于旋律无监督预训练策略以增强歌声合成音域范围
【语音之家】AI产业沙龙—视频译制场景中的语音翻译、语音合成和唇形生成技术
SEF-Net:不依赖于声纹Embedding的时域目标说话人分离网络
面向神经声码器训练的一种合成语料生成方法
【ICASSP2024】基于记忆感知和Seq2Seq架构的说话人日志系统
少走99%的弯路!0基础快速入门语音识别
2021 SpeechHome 语音技术研讨会
MISP 2023挑战中视听目标扬声器提取的XMUSPEECH系统
【音乐与音频处理】在学术计算规模上再现大型预训练语音模型-Shinji-WATANABE
如何用开源工具实现一个完整的语音识别系统?
10年了,依然没有人能够击败他的内容!
【语音之家】AI产业沙龙—智能语音技术在美团的应用实践
多说话人语音识别中可感知边界的序列化输出训练
通过特征解纠缠技术进行跨城市和设备的声学场景分类