V
主页
AlSHELL-Turbo:多模态AI模型数据集
发布人
打开封面
下载高清视频
观看高清视频
视频下载器
通过NVIDIA NEMO 训练语音AI模型(下)
圆桌:音频与大模型(欧智坚 何磊 钱彦旻 易江燕 栾剑 张超)
开源语音识别利器——NVIDIA NEMO
吴恩达同步最新AI课,第56讲:Llama 3.2多模态综合开发--Introducing Multimodal Llama 3.2
Daniel Povey|Zipformer:一种改进的语音识别编码器
开源语音识别工具wenet 简介 张彬彬
【语音之家】AI产业沙龙——智能对话平台
基于跨模态对齐的从语音到歌声转换-李瑞琪 火山语音
WeNet开源社区最新进展
【挑战全网系列】全网超强大模型FLUX.1文生图+SDV4.9整合包超强封神版本 +全套SD超强模型插件整合包+Stablediffusion安装包+sd教程
【授权转载】【李宏毅】【生成式AI導論 2024】第1講:生成式AI是什麼?
【AI变现】用AI做黑神话四妹火遍全网!壁纸|语音|视频一键生成!单月变现2W+的副业兼职教程,AI美女变现实操教程!(附资料)
【语音之家】AI技术沙龙- -说话人日志
【音乐与音频处理】在学术计算规模上再现大型预训练语音模型-Shinji-WATANABE
【语音之家公开课】音频-文本跨模态翻译 Audio-Text Cross Modal Translation
音频内容生成:构建数字化人类、人性化人工智能-雪巍(Wei-XUE)
【语音之家】AI技术沙龙-声纹识别
基于乱序自回归的动作插值
民主化音乐?音乐AI的政治经济学-黄儒菁(Rujing-Stacy-HUANG)
deepin 23 UOS AI,多模型对接,赋能应用
ChatGPT惨败,输给60年前老AI,谷歌发布史上最强大模型Gemini,打爆GPT-4
基于视觉信息解耦的多模态语音分离模型
【语音之家】AI产业沙龙—AI语音赋能产业数字化新场景
【荐】已经开到第四期了,端到端语音识别好课,新增语音大模型内容
YOLOV11一键整合包模型训练教程 V11整合包增量更新 数据集自动配置 模型训练篇
声纹识别可视化研究分析
【语音之家】AI产业沙龙 —解读火山语音团队在国际顶会ACL2023的创新突破
如何工程化一个语音开源项目: 手把手带你实现开源声纹分割聚类项目 pyannote-audio 的工程化
融合最新Flux模型的Comfyui换脸工作流!超自然AI换脸教程(工作流),直接生成妈生感,轻松安装,永久使用!comfyui教程、AI绘画教程
比尔盖茨:AI Agent 才是下一个时代, OpenAI神秘Q* 项目才是奥特曼被裁的原因, 北大开源多模态图像视频识别项目
【IACSSP】文本表征预训练中的启发式掩码方案
融合前跨模态语义对齐(CSAF)方法改善端到端口语理解
【台大李宏毅】公开课 迈向语音版ChatGPT
【闲话AI】语音识别发展史
SH-SSS丨端到端音视频说话人日志网络 — 何茂奎
ICASSP 2023 E-Prevention竞赛分享基于可穿戴设备数据的用户身份识别系统
【课程推荐】AISHELL-1 语音识别实战 | 语音识别技术零门槛入门,带您玩转AISHELL-1经典数据集!
基于无监督学习的端到端无分层生成固定滤波器主动噪声控制
ESPnet-SE开源工具介绍-钱彦旻 上海交通大学
【语音之家】AI产业沙龙—如何应用k2开发语音识别系统