V
主页
京东 11.11 红包
颠覆性创新:多模态对话与精准区域分割
发布人
【分享人】张傲,新加坡国立大学 NExT++ 实验室博士,研究方向包括多模态大语言模型,多模态提示学习,场景理解等。 【分享内容】 - VPGTrans:10% 成本的高效多模态对话模型构建 - NExT-Chat 模型:基于嵌入的多模态对话+检测+分割 - 区域解读,下一代 LMM 功能展望 相关资料: VPGTrans: VPGTrans: Transfer Visual Prompt Generator across LLMs (NeurIPS 2023) NExT-Chat: An LMM for Chat, Detection and Segmentation (早期技术报告) Paper: https://arxiv.org/abs/2305.01278 https://arxiv.org/abs/2311.04498 Code: 主页(paper+code):https://vpgtrans.github.io/ 主页(paper+code+demo):https://next-chatv.github.io/ 【OpenMMLab】公众号回复‘社区开放麦’即可获取视频课件 微信添加小助手 InternLM 进入导师群沟通
打开封面
下载高清视频
观看高清视频
视频下载器
SAM 时代,图像/视频分割将何去何从?
吴恩达同步最新AI课,第56讲:Llama 3.2多模态综合开发--Introducing Multimodal Llama 3.2
MMDetection:从通用目标检测迈向多模态智能体
AI 2.0:突破性技术推动智能制造的应用创新
多模态简述
语义分割与MMSegmentation
多模态 Agents:用大模型语言模型串联多模态专家
MMBench:基于ChatGPT的全方位多模能力评测体系
多模态任务终结者:Meta-Transformer
毕业论文终于有救了!这绝对是B站最全的【多模态+大模型+知识图谱】教程,轻松搞定大小论文创新点!!人工智能/深度学习/机器学习
社区开放麦#43 | 高精度实例分割 PatchDCT
星语天文大模型,科普与科学领域的多模态、智能体探索
LawBench:多层能力体系全面评估
人体关键点检测与MMPose
Stable Diffusion 3 论文技术解析,架构细节大揭秘!
探索之路:OCR 领域在大模型浪潮中的创新契机 | 热门研究云际会#3
XTuner 微调 LLM:1.8B、多模态、Agent
多模态扩散模型的革新应用 | 热门研究云际会#4
MMagic —— 图像与视频生成、编辑及增强工具库
吴恩达《多模态Llama3.2|Introducing Multimodal Llama 3.2》中英字幕(deepseek翻译
视频理解基础模型及下游应用-王利民教授 | AI奇妙夜#7
开放检测视觉场景理解 | 社区开放麦
AI实战营第二期 开营仪式
PK 周杰伦,全能音乐创作大模型 SongComposer 作词作曲令人惊叹
AI时代数据应用的全链路工厂- Chat2DB
AI奇妙夜:缓解多模态大模型中使用裁剪策略增大分辨率的“后遗症”
如何基于大模型构建智能体?多机构百页综述从交互角度详解 AI Agent!
社区开放麦#24 | 释放数据潜力,打造 AI 加速引擎
对话尼克:OpenAI弯道超车谷歌背后的第一性原理
MMPretrain代码课
ACL 24 论文分享(东北大学信息检索小组场)
社区开放麦#15| 突破纯视觉 3D 检测深度估计瓶颈
迈向更强的开集目标检测-From Detection to Grounding
FinGPT开源金融垂类大模型
社区开放麦#34 | 突破 AI 推理性能瓶颈,神经网络量化的方法与实践
你的3D感知模型够鲁棒吗?Robo3D告诉你答案!
【LLM大模型+RAG】2024大模型RAG企业项目实战:从零开始搭建一套完整的RAG系统,理论+原理+代码深入解析!(附课件教程)
多模态大模型 前沿算法与实战应用 系列课程 第一季:图文与视频理解
社区开放麦#41 | 视觉大模型设计新范式
AI奇妙夜第一期