V
主页
LLaVA-Grounding:实现大型多模态模型的基于视觉的聊天
发布人
【加群】 一起来刷arxiv,请加vx: pwbot02(请备注:b站arxiv) 【论文标题】 LLaVA-Grounding:实现大型多模态模型的基于视觉的聊天 【论文简述】 随着大型多模态模型(LMMs)的显著进展,其在视觉聊天中的接地能力越来越受到重视。然而,现有模型在视觉聊天和接地任务之间往往难以兼顾。为此,研究者们提出了一种名为LLaVA-Grounding(LLaVA-G)的端到端模型,该模型将语言模型与接地模型连接起来,以实现基于视觉的聊天。LLaVA-G支持对象级和像素级接地,可以处理各种视觉提示,如标记、点击、框和涂鸦。此外,研究者们还创建了一个名为Grounding-Bench的基准,用于评估接地视觉聊天能力。实验结果表明,LLaVA-G在Grounding-Bench上的表现优于其他LMMs,同时在经典接地基准(如RefCOCO/+/g和Flickr30K)上也取得了具有竞争力的结果。 【论文链接】 https://arxiv.org/abs/2312.02949
打开封面
下载高清视频
观看高清视频
视频下载器
多模态协同学习模型
RLHF-V: 通过细粒度纠正性人工反馈实现值得信赖的多模态大型语言模型
VCoder:为多模态大型语言模型提供视觉编码器的多功能视觉编码器
多模态基础模型研究综述
多模态大型语言模型深度比较:Gemini与GPT-4V的全面评估与结合
LEGO:Language Enhanced Multi-modal Grounding Model
Merlin:赋予多模态大型语言模型未来洞察力
大型语言模型在上下文学习中的可靠性提升:结合监督知识的方法
PixelLLM:通过像素对齐实现视觉语言模型的精确定位
LLaVA-Interactive: 一种多模态人机交互研究原型
蜜蜜蜂:一种局部增强的多模态大型语言模型投影器
Vary: 大型视觉语言模型视觉词汇扩展新方法
基于CapsFusion的高质量多模态预训练数据生成
大规模语言模型在多模态音乐理解与生成中的应用
FIND:通用接口实现跨模态任务的高效对齐与交互
多模态模型对齐与强化学习从人类反馈优化
Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V
通用视觉基础模型:多任务学习实现高效零样本迁移
LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents
LLM360:推动全透明开源大型语言模型研究
DiffMorpher:释放扩散模型潜能实现平滑图像变形
多模态指令图像生成:Instruct-Imagen模型的创新与应用
智能手机应用操作的多模态智能代理框架
基于多模态工具的大型语言模型控制系统ControlLLM
大型语言模型生成内容质量自评估提升选择性生成
对比解码提升大型语言模型推理能力
分布式大型语言模型的互联网低成本推理与微调
基于潜在变量推断的训练链式思维提升语言模型推理能力
人工智能视觉语言模型对视觉错觉的感知
大规模多模态模型扩展研究
大型语言模型作为优化器
Sorted LLaMA: 动态推理解锁大型语言模型中间层潜力
多模态大型语言模型Gemini在常识推理中的表现评估
大型语言模型潜在知识发现的挑战
【AI Drive】天津大学副教授张长青:多模态融合的基础问题及算法研究
大型语言模型:从训练到推理的全面综述
基于统一视觉语言模型的图像和视频混合学习
Densely Captioned Images: 评估视觉语言模型的新基准
基于个性化教学原理的关闭源LLMs模型蒸馏方法
面向潜扩散模型的高效量化策略