V
主页
世界杯无障碍字幕直播间背后的流式语音技术 火山语音
发布人
打开封面
下载高清视频
观看高清视频
视频下载器
ModelScope魔搭社区及其开源的语音AI模型
Sherpa:新一代 Kaldi 部署框架
【语音识别】声学特征提取
ModelScope语音开源现状和语音语义多模态大模型研究进展 张仕良
多通道、多人及非基于声纹编码向量的特定人语音抽取-李明
具有目标说话人吸引子的端到端神经说话人分类的基于注意力的编解码器网络
【语音之家】AI产业沙龙——腾讯会议背后的语音技术
什么是语音信号?
复杂声学场景下基于复数谱的语音增强和去混技术研究
圆桌:音频与大模型(欧智坚 何磊 钱彦旻 易江燕 栾剑 张超)
【语音之家】AI产业沙龙—京东在AI语音方向的技术探索与实践
用于语音情感识别的多尺度时空Transformer模型
声纹识别与语音防伪技术前沿及工作进展
【语音之家公开课】表现力语音与歌唱合成
【语音之家】AI产业沙龙 —解读火山语音团队在国际顶会ACL2023的创新突破
基于新一代kaldi项目的语音识别应用实例-郭理勇 小米
【音乐与音频处理】在学术计算规模上再现大型预训练语音模型-Shinji-WATANABE
【语音之家】AI产业沙龙—智能语音技术在美团的应用实践
【语音之家】AI产业沙龙——语音&音乐技术在字节跳动平台的应用
【语音之家】AI产业沙龙—AI语音赋能产业数字化新场景
【语音之家】AI产业沙龙—火山语音在AI视频译制方向的技术探索与实践
基于自然语言描述的跨说话人语音风格转换
语音AIGC技术进展-音频技术在喜马拉雅的研发和落地应用-卢恒
针对口吃语音提出的自动化语音编辑系统-江子越 火山语音
【荐】已经开到第四期了,端到端语音识别好课,新增语音大模型内容
基于SepFormer的交叉注意力音视频目标说话人语音提取方法
文本到音频的生成:技术和应用-刘豪赫(Haohe LIU)
应用于全带残余回声抑制的两步频带分割神经网络方法
基于序列胶囊网络的语音情感识别
说话人识别模型的可解释性-王东
结合视觉信息的端到端语音翻译-任意 火山语音
【语音之家】走进企业系列沙龙-语音技术在58同城的应用
开源语音识别利器——NVIDIA NEMO
Whisper终结者:Reverb ASR 语音识别和说话人分离方面新标杆 在前所未有的20万小时人工转录数据上进行训练 支持可定制的逐字转录
京东在监督对比学习语音识别中的实践
西工大-大象声科个性化语音增强系统
【语音之家】AI技术沙龙—语音增强
WeNet开源社区最新进展
DualVC 2:用于统一流式与非流式语音转换的动态掩码卷积
Kaldi中的神经网络