V
主页
Sherpa:新一代 Kaldi 部署框架
发布人
打开封面
下载高清视频
观看高清视频
视频下载器
【清华】从0开始学Kaldi,丝滑入门语音识别,语音识别原来如此简单
少走99%的弯路!0基础快速入门语音识别
【声纹识别】什么是声纹识别?声纹识别发展历程怎样?
WeNet开源社区最新进展
用于声学信号内容理解的机器学习算法前瞻 -李圣辰 -西交利物浦大学
VoxBlink:短视频上的大规模说话人验证数据集
如何工程化一个语音开源项目: 手把手带你实现开源声纹分割聚类项目 pyannote-audio 的工程化
开源语音识别工具WeNet,从入门到精通
SlideSpeech:大规模幻灯片丰富的语音-视频语料库
Daniel Povey|Zipformer:一种改进的语音识别编码器
【ICASSP2024】基于记忆感知和Seq2Seq架构的说话人日志系统
Kaldi安装与样例流程介绍
通过特征解纠缠技术进行跨城市和设备的声学场景分类
基于多目标渐进聚类的半监督说话人识别域自适应
说话人日志与语音识别的多层联合推理
基于无监督学习的端到端无分层生成固定滤波器主动噪声控制
【Wenet语音识别】环境配置
技能点拉满!7个小时一口气带你吃透AI【语音识别-语音合成-语音分离】,原理解读+模型实战,计算机博士一次性讲全了!!(LAS模型/starganvc2)
交互式AI中语音技术实践与探索-万玉龙
多说话人语音识别中可感知边界的序列化输出训练
如何用开源工具实现一个完整的语音识别系统?
面向通用语音离散标记:ASR和TTS的一个案例研究
自适应过滤器的元学习初始化背后是什么?-是一种加速自适应多通道主动噪声控制收敛的简单方法
喜马拉雅语音识别技术和应用介绍
ModelScope魔搭社区及其开源的语音AI模型
圆桌:音频与大模型(欧智坚 何磊 钱彦旻 易江燕 栾剑 张超)
音频生成-王文武
2022第七届Kaldi技术交流会 暨 SpeechHome 语音技术研讨会 第二届
AI算法赋能海天瑞声高质量数据生产-邵志明
【语音合成】什么是语音合成?
用于大规模说话人验证的动态全连接层
101 新一代Kaldi+WebAssembly+SenseVoice+VAD: 浏览器本地中英文语音识别
Flux都火出天际了 你还没用上?120亿参数,堪称无敌!!本地部署 2秒一张图 最强AI绘画模型
唤醒你的贾维斯,该从哪里开始学? 5分钟让你了解语音识别技术
基于语音识别预训练的说话人识别方法
利用基于熵的融合以及基于剪枝的网络架构优化改进多模态情感识别
【Wenet语音识别】预训练模型-流式和非流式模型
【秒懂】智能语音技术范畴
超划算的语音课程,确定不来了解下?
【语音之家】AI产业沙龙—如何应用k2开发语音识别系统