V
主页
基于随机分类器的小样本类别增量音频分类
发布人
打开封面
下载高清视频
观看高清视频
视频下载器
【语音识别】声学特征提取
如何工程化一个语音开源项目: 手把手带你实现开源声纹分割聚类项目 pyannote-audio 的工程化
基于音频辨别的对比学习在连续语音中的可定制关键词检测
对标OpenAI高级语音【Her】 开源实时多模态AI聊天机器人Moshi,语音对话延迟低至200毫秒!67页技术报告全公开 AI大神Karpathy盛赞
【无限制AI风月】ai聊天根本没限制!
2021年声纹识别研究与应用学术研讨会
基于新一代kaldi项目的语音识别应用实例-郭理勇 小米
少走99%的弯路!0基础快速入门语音识别
【音乐与音频处理】在学术计算规模上再现大型预训练语音模型-Shinji-WATANABE
基于热词短语预测网络的热词语音识别
2022年声纹识别研究与应用学术研讨会
用于语音情感识别的多尺度时空Transformer模型
通过NVIDIA NEMO 训练语音AI模型(下)
高速高质量零资源歌声合成-雪巍
具有目标说话人吸引子的端到端神经说话人分类的基于注意力的编解码器网络
世界杯无障碍字幕直播间背后的流式语音技术 火山语音
端到端语音到语音翻译中的零样本风格迁移
域移下异常声音检测的分层元数据信息约束自监督学习
【音乐与音频处理】什么是音乐理解?卡耐基梅隆大学 罗杰·B·丹嫩贝格(Roger-B.DANNENBERG)
深度生成固定滤波器的有源噪声控制
用于实时多通道语音增强的因果U-Net神经波束形成网络
Daniel Povey|Zipformer:一种改进的语音识别编码器
跨多种阵列拓扑结构的多通道语音识别自动通道选择与空间特征集成
结合视觉信息的端到端语音翻译-任意 火山语音
ESPnet-SE开源工具介绍-钱彦旻 上海交通大学
Muzic:建立一个多才多艺的音乐人工智能助手-谭旭(Xu-TAN)
开源语音识别工具wenet 简介 张彬彬
【语音之家公开课】表现力语音与歌唱合成
针对部分篡改音频的波形边界检测系统
【语音之家】AI产业沙龙—腾讯AI Lab语音技术进展分享报告
【实操】通过NVIDIA NEMO 训练语音AI模型(上)
声音成分分析及其下游应用
利用文本-语音对比学习提出针对语音合成的韵律文本表征-叶振辉(火山语音)
说话人识别模型的可解释性-王东
ICASSP 2023 论文预讲会 第二期 清华大学人机语音交互实验室专场(上)
SELM:基于离散标记和语言模型的语音增强方法
音乐AI:如何闭合理解和创造的循环-夏光宇(Gus-XIA)
【台大李宏毅】公开课 迈向语音版ChatGPT
基于鼾声的睡眠体位识别(数据集)
ICASSP 2023 论文预讲会 第四期 昆山杜克大学语音及多模态智能信息处理实验室专场 (SMIIPLab)