AlSHELL-Turbo：多模态AI模型数据集 - 视频下载 Video Downloader

AlSHELL-Turbo：多模态AI模型数据集

发布人

打开封面下载高清视频观看高清视频视频下载器

通过NVIDIA NEMO 训练语音AI模型（下）

圆桌：音频与大模型（欧智坚何磊钱彦旻易江燕栾剑张超）

开源语音识别利器——NVIDIA NEMO

吴恩达同步最新AI课，第56讲：Llama 3.2多模态综合开发--Introducing Multimodal Llama 3.2

Daniel Povey|Zipformer:一种改进的语音识别编码器

开源语音识别工具wenet 简介张彬彬

【语音之家】AI产业沙龙——智能对话平台

基于跨模态对齐的从语音到歌声转换-李瑞琪火山语音

WeNet开源社区最新进展

【挑战全网系列】全网超强大模型FLUX.1文生图+SDV4.9整合包超强封神版本 +全套SD超强模型插件整合包+Stablediffusion安装包+sd教程

【授权转载】【李宏毅】【生成式AI導論 2024】第1講：生成式AI是什麼？

【AI变现】用AI做黑神话四妹火遍全网！壁纸|语音|视频一键生成！单月变现2W+的副业兼职教程，AI美女变现实操教程！（附资料）

【语音之家】AI技术沙龙- -说话人日志

【音乐与音频处理】在学术计算规模上再现大型预训练语音模型-Shinji-WATANABE

【语音之家公开课】音频-文本跨模态翻译 Audio-Text Cross Modal Translation

音频内容生成:构建数字化人类、人性化人工智能-雪巍(Wei-XUE)

【语音之家】AI技术沙龙-声纹识别

基于乱序自回归的动作插值

民主化音乐?音乐AI的政治经济学-黄儒菁(Rujing-Stacy-HUANG)

deepin 23 UOS AI，多模型对接，赋能应用

ChatGPT惨败，输给60年前老AI，谷歌发布史上最强大模型Gemini，打爆GPT-4

基于视觉信息解耦的多模态语音分离模型

【语音之家】AI产业沙龙—AI语音赋能产业数字化新场景

【荐】已经开到第四期了，端到端语音识别好课，新增语音大模型内容

YOLOV11一键整合包模型训练教程 V11整合包增量更新数据集自动配置模型训练篇

声纹识别可视化研究分析

【语音之家】AI产业沙龙 —解读火山语音团队在国际顶会ACL2023的创新突破

如何工程化一个语音开源项目：手把手带你实现开源声纹分割聚类项目 pyannote-audio 的工程化

融合最新Flux模型的Comfyui换脸工作流！超自然AI换脸教程（工作流），直接生成妈生感，轻松安装，永久使用！comfyui教程、AI绘画教程

比尔盖茨：AI Agent 才是下一个时代， OpenAI神秘Q* 项目才是奥特曼被裁的原因，北大开源多模态图像视频识别项目

【IACSSP】文本表征预训练中的启发式掩码方案

融合前跨模态语义对齐（CSAF）方法改善端到端口语理解

【台大李宏毅】公开课迈向语音版ChatGPT

【闲话AI】语音识别发展史

SH-SSS丨端到端音视频说话人日志网络 — 何茂奎

ICASSP 2023 E-Prevention竞赛分享基于可穿戴设备数据的用户身份识别系统

【课程推荐】AISHELL-1 语音识别实战 | 语音识别技术零门槛入门，带您玩转AISHELL-1经典数据集！

基于无监督学习的端到端无分层生成固定滤波器主动噪声控制

ESPnet-SE开源工具介绍-钱彦旻上海交通大学

【语音之家】AI产业沙龙—如何应用k2开发语音识别系统