LLaVA-Grounding：实现大型多模态模型的基于视觉的聊天

发布人

【加群】 一起来刷arxiv，请加vx: pwbot02(请备注：b站arxiv) 
【论文标题】 LLaVA-Grounding：实现大型多模态模型的基于视觉的聊天
【论文简述】 随着大型多模态模型（LMMs）的显著进展，其在视觉聊天中的接地能力越来越受到重视。然而，现有模型在视觉聊天和接地任务之间往往难以兼顾。为此，研究者们提出了一种名为LLaVA-Grounding（LLaVA-G）的端到端模型，该模型将语言模型与接地模型连接起来，以实现基于视觉的聊天。LLaVA-G支持对象级和像素级接地，可以处理各种视觉提示，如标记、点击、框和涂鸦。此外，研究者们还创建了一个名为Grounding-Bench的基准，用于评估接地视觉聊天能力。实验结果表明，LLaVA-G在Grounding-Bench上的表现优于其他LMMs，同时在经典接地基准（如RefCOCO/+/g和Flickr30K）上也取得了具有竞争力的结果。
【论文链接】 https://arxiv.org/abs/2312.02949

打开封面下载高清视频观看高清视频视频下载器

LLaVA-Grounding：实现大型多模态模型的基于视觉的聊天

多模态协同学习模型

RLHF-V: 通过细粒度纠正性人工反馈实现值得信赖的多模态大型语言模型

VCoder：为多模态大型语言模型提供视觉编码器的多功能视觉编码器

多模态基础模型研究综述

多模态大型语言模型深度比较：Gemini与GPT-4V的全面评估与结合

LEGO:Language Enhanced Multi-modal Grounding Model

Merlin：赋予多模态大型语言模型未来洞察力

大型语言模型在上下文学习中的可靠性提升：结合监督知识的方法

PixelLLM：通过像素对齐实现视觉语言模型的精确定位

LLaVA-Interactive: 一种多模态人机交互研究原型

蜜蜜蜂：一种局部增强的多模态大型语言模型投影器

Vary: 大型视觉语言模型视觉词汇扩展新方法

基于CapsFusion的高质量多模态预训练数据生成

大规模语言模型在多模态音乐理解与生成中的应用

FIND：通用接口实现跨模态任务的高效对齐与交互

多模态模型对齐与强化学习从人类反馈优化

Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V

通用视觉基础模型：多任务学习实现高效零样本迁移

LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents

LLM360：推动全透明开源大型语言模型研究

DiffMorpher：释放扩散模型潜能实现平滑图像变形

多模态指令图像生成：Instruct-Imagen模型的创新与应用

智能手机应用操作的多模态智能代理框架

基于多模态工具的大型语言模型控制系统ControlLLM

大型语言模型生成内容质量自评估提升选择性生成

对比解码提升大型语言模型推理能力

分布式大型语言模型的互联网低成本推理与微调

基于潜在变量推断的训练链式思维提升语言模型推理能力

人工智能视觉语言模型对视觉错觉的感知

大规模多模态模型扩展研究

大型语言模型作为优化器

Sorted LLaMA: 动态推理解锁大型语言模型中间层潜力

多模态大型语言模型Gemini在常识推理中的表现评估

大型语言模型潜在知识发现的挑战

【AI Drive】天津大学副教授张长青：多模态融合的基础问题及算法研究

大型语言模型：从训练到推理的全面综述

基于统一视觉语言模型的图像和视频混合学习

Densely Captioned Images: 评估视觉语言模型的新基准

基于个性化教学原理的关闭源LLMs模型蒸馏方法

面向潜扩散模型的高效量化策略