【声纹识别入门】基于ResNet的模型实现 - 视频下载 Video Downloader

【声纹识别入门】基于ResNet的模型实现

发布人

节选自《HIMIA声纹识别实战》https://xjw.xet.tech/s/3pHVzU

打开封面下载高清视频观看高清视频视频下载器

【声纹识别入门】ASV-Subtools工具环境配置

【声纹识别入门】数据增强（wav层面）

【清华】从0开始学Kaldi，丝滑入门语音识别，语音识别原来如此简单

【声纹识别入门】ASV-Subtools工具runtime实现-frontend

【Wenet语音识别】预训练模型-流式和非流式模型

【声纹识别入门】损失函数的设计方法

【声纹识别入门】数据准备

【声纹识别入门】ASV-Subtools工具数据合并 & vad计算

【语音合成】什么是语音合成？

【声纹识别入门】ASV-Subtools工具音素标签获取-特征提取

2022年声纹识别研究与应用学术研讨会

【语音合成】Tacotron-2 的实现实战试听

HIMIA-预训练（测试集）

多说话人交互场景中的目标说话人提取

【语音合成】序列模型实战试听

【课程推荐】声纹识别与音频处理-王泉

【声纹识别入门】远场说话人识别

入门语音合成，听这个课真的可以哦

AI语音面试常见问题：端到端模型与传统模型的区别

基于深度聚类和图网络的声纹识别-何亮、许敏强

如何工程化一个语音开源项目：手把手带你实现开源声纹分割聚类项目 pyannote-audio 的工程化

【语音之家】AI产业沙龙—自动语音识别利器 - NVIDIA NeMo

【Wenet语音识别】Transformer和Conformer

陈果果语音识别的发展: A Dataset and Benchmark Perspective【语音之家公开课】

SlideSpeech：大规模幻灯片丰富的语音-视频语料库

基于多通道时空特征和知识蒸馏的鲁棒目标说话人提取研究

非对称干净片段引导的自监督学习用于声纹识别

说话人识别中的Hard Trials初步探索

论文解读丨CUSIDE：分块、模拟未来、解码的流式语音识别新框架 -结论

Whisper终结者：Reverb ASR 语音识别和说话人分离方面新标杆在前所未有的20万小时人工转录数据上进行训练支持可定制的逐字转录

ModelScope语音开源现状和语音语义多模态大模型研究进展张仕良

噪声与远场环境下的声纹识别

说话人识别模型的可解释性-王东

基于热词短语预测网络的热词语音识别

天津大学天津市认知计算与应用重点实验室言语交互意图理解方向的研究思路及进展

Sherpa:新一代 Kaldi 部署框架

唤醒你的贾维斯，该从哪里开始学？ 5分钟让你了解语音识别技术

【语音识别】声学特征提取

【实操】通过NVIDIA NEMO 训练语音AI模型（上）

【课程推荐】ASV-Subtools声纹识别实战 | AVS-Subtoos发布者亲自带您掌握当下最流行声纹识别工具，助力开发者从0到1轻松上手声纹技术！