颠覆性创新：多模态对话与精准区域分割 - 视频下载 Video Downloader

京东 11.11 红包

颠覆性创新：多模态对话与精准区域分割

发布人

【分享人】张傲，新加坡国立大学 NExT++ 实验室博士，研究方向包括多模态大语言模型，多模态提示学习，场景理解等。

【分享内容】
- VPGTrans：10% 成本的高效多模态对话模型构建
- NExT-Chat 模型：基于嵌入的多模态对话+检测+分割
- 区域解读，下一代 LMM 功能展望

相关资料：
VPGTrans: VPGTrans: Transfer Visual Prompt Generator across LLMs (NeurIPS 2023)
NExT-Chat: An LMM for Chat, Detection and Segmentation (早期技术报告)

Paper:
https://arxiv.org/abs/2305.01278
https://arxiv.org/abs/2311.04498

Code:
主页（paper+code）：https://vpgtrans.github.io/
主页（paper+code+demo）：https://next-chatv.github.io/


【OpenMMLab】公众号回复‘社区开放麦’即可获取视频课件
微信添加小助手 InternLM 进入导师群沟通

打开封面下载高清视频观看高清视频视频下载器

SAM 时代，图像/视频分割将何去何从？

吴恩达同步最新AI课，第56讲：Llama 3.2多模态综合开发--Introducing Multimodal Llama 3.2

MMDetection：从通用目标检测迈向多模态智能体

AI 2.0：突破性技术推动智能制造的应用创新

多模态简述

语义分割与MMSegmentation

多模态 Agents：用大模型语言模型串联多模态专家

MMBench：基于ChatGPT的全方位多模能力评测体系

多模态任务终结者：Meta-Transformer

毕业论文终于有救了！这绝对是B站最全的【多模态+大模型+知识图谱】教程，轻松搞定大小论文创新点！！人工智能/深度学习/机器学习

社区开放麦#43 | 高精度实例分割 PatchDCT

星语天文大模型，科普与科学领域的多模态、智能体探索

LawBench：多层能力体系全面评估

人体关键点检测与MMPose

Stable Diffusion 3 论文技术解析，架构细节大揭秘！

探索之路：OCR 领域在大模型浪潮中的创新契机 | 热门研究云际会#3

XTuner 微调 LLM：1.8B、多模态、Agent

多模态扩散模型的革新应用 | 热门研究云际会#4

MMagic —— 图像与视频生成、编辑及增强工具库

吴恩达《多模态Llama3.2|Introducing Multimodal Llama 3.2》中英字幕（deepseek翻译

视频理解基础模型及下游应用-王利民教授 | AI奇妙夜#7

开放检测视觉场景理解 | 社区开放麦

AI实战营第二期开营仪式

PK 周杰伦，全能音乐创作大模型 SongComposer 作词作曲令人惊叹

AI时代数据应用的全链路工厂- Chat2DB

AI奇妙夜：缓解多模态大模型中使用裁剪策略增大分辨率的“后遗症”

如何基于大模型构建智能体？多机构百页综述从交互角度详解 AI Agent！

社区开放麦#24 | 释放数据潜力，打造 AI 加速引擎

对话尼克：OpenAI弯道超车谷歌背后的第一性原理

MMPretrain代码课

ACL 24 论文分享（东北大学信息检索小组场）

社区开放麦#15| 突破纯视觉 3D 检测深度估计瓶颈

迈向更强的开集目标检测-From Detection to Grounding

FinGPT开源金融垂类大模型

社区开放麦#34 | 突破 AI 推理性能瓶颈，神经网络量化的方法与实践

你的3D感知模型够鲁棒吗？Robo3D告诉你答案！

【LLM大模型+RAG】2024大模型RAG企业项目实战：从零开始搭建一套完整的RAG系统，理论+原理+代码深入解析！（附课件教程）

多模态大模型前沿算法与实战应用系列课程第一季：图文与视频理解

社区开放麦#41 | 视觉大模型设计新范式

AI奇妙夜第一期