V
主页
【聘】9月份AI语音圈招聘信息
发布人
打开封面
下载高清视频
观看高清视频
视频下载器
多说话人交互场景中的目标说话人提取
Amphion-开源的音频 、音乐和语音生成工具包-武执政
基于视觉信息解耦的多模态语音分离模型
【秒懂】语音识别是什么
什么是语音信号?
具有目标说话人吸引子的端到端神经说话人分类的基于注意力的编解码器网络
开源语音识别工具wenet 简介 张彬彬
ModelScope语音开源现状和语音语义多模态大模型研究进展 张仕良
开源语音和 wenet-e2e 社区
基于热词短语预测网络的热词语音识别
【聘】医疗级听力技术研发公司,招聘AI语音实习生
TF-SepNet:一种用于低复杂度声学场景分类的卷积神经网络中的高效一维核设计
【语音识别】声学特征提取
基于跨模态对齐的从语音到歌声转换-李瑞琪 火山语音
【音乐与音频处理】什么是音乐理解?卡耐基梅隆大学 罗杰·B·丹嫩贝格(Roger-B.DANNENBERG)
入门语音合成,听这个课真的可以哦
利用语音和双语文本联合预训练的语音到语音翻译模型
【语音合成】Tacotron-2 的实现实战 试听
Kaldi安装与样例流程介绍
基于多级域适配器的鲁棒跨域说话人验证技术
【ICASSP2024】基于记忆感知和Seq2Seq架构的说话人日志系统
将子词发音与唇形联合嵌入感知视听语音增强
语音识别基础:从声音到语音
【免费赠书】新书速递《语音识别:原理与应用》(第2版)
少走99%的弯路!0基础快速入门语音识别
基于多任务学习的异常感知的内群点建模及多尺度的异常值打分
【语音之家公开课】表现力语音与歌唱合成
中文连续视觉语音识别挑战赛
对标OpenAI高级语音【Her】 开源实时多模态AI聊天机器人Moshi,语音对话延迟低至200毫秒!67页技术报告全公开 AI大神Karpathy盛赞
提升Conformer-Transducer ASR系统的语音辅助多目标单元建模
声音成分分析及其下游应用
基于序列胶囊网络的语音情感识别
基于副语言特征和预训练特征的跨语言阿尔茨海默症检测
4块GPU、不到3天训练出「开源版GPT-4o」 基于LLaMA-3.1-8B,羊驼家族再添大将,实现低延迟/高质量的语音互动
【语音合成】什么是语音合成?
关于AI语音圈的顶会的INTERSPEECH,你需要知道……
以目标语音识别为例,弱监督语音预训练
突破SSL语音表示中无监督单元发现的极限
基于conformer的热词增强方法
WavSyncSwap:端到端的语音驱动肖像定制数字人生成