V
主页
VCoder:为多模态大型语言模型提供视觉编码器的多功能视觉编码器
发布人
【加群】 一起来刷arxiv,请加vx: pwbot02(请备注:b站arxiv) 【论文标题】 VCoder:为多模态大型语言模型提供视觉编码器的多功能视觉编码器 【论文简述】 本文提出了一种名为VCoder的多功能视觉编码器,旨在提高多模态大型语言模型(MLLM)在视觉感知任务上的性能。VCoder通过接收分割或深度图等感知模态作为输入,增强了MLLM的感知能力。此外,作者们利用COCO数据集的图像和现成视觉感知模型的输出,创建了COCO分割文本(COST)数据集,用于训练和评估MLLM在对象感知任务上的表现。文章还引入了评估MLLM在COST数据集上对象感知能力的度量标准,并提供了广泛的实验证据,证明了VCoder在对象级感知技能上优于现有的多模态LLM,包括GPT-4V。研究结果表明,VCoder在对象计数和识别方面的表现显著优于现有的MLLM,为多模态LLM的感知和推理能力提供了新的视角。 【论文链接】 https://arxiv.org/abs/2312.14233
打开封面
下载高清视频
观看高清视频
视频下载器
RLHF-V: 通过细粒度纠正性人工反馈实现值得信赖的多模态大型语言模型
蜜蜜蜂:一种局部增强的多模态大型语言模型投影器
SPHINX: 一种多模态大语言模型的联合混合方法
多模态大型语言模型Gemini在常识推理中的表现评估
Kosmos-G: Generating Images in Context with Multimodal Large Language Models
Vary: 大型视觉语言模型视觉词汇扩展新方法
LLaVA-Grounding:实现大型多模态模型的基于视觉的聊天
基于多模态工具的大型语言模型控制系统ControlLLM
大规模语言模型在多模态音乐理解与生成中的应用
基于CapsFusion的高质量多模态预训练数据生成
智能手机应用操作的多模态智能代理框架
多模态基础模型研究综述
基于协同学习的可组合视觉语言模型
FIND:通用接口实现跨模态任务的高效对齐与交互
基于统一视觉语言模型的图像和视频混合学习
稳定分数蒸馏:高质量三维生成新方法
基于上下文调整的检索增强生成方法
利用FP8低位数据格式高效地训练大型语言模型
大型语言模型生成内容质量自评估提升选择性生成
面向大型语言模型的有约束文本生成方法
Densely Captioned Images: 评估视觉语言模型的新基准
对比激活添加:精确操控大型语言模型行为的新方法
利用Atom低位量化技术提升大型语言模型服务吞吐量
【AI Drive】天津大学副教授张长青:多模态融合的基础问题及算法研究
分布式大型语言模型的互联网低成本推理与微调
大规模语言模型结合神经符号模型的生成型神经符号视觉推理
人工智能视觉语言模型对视觉错觉的感知
大型语言模型在上下文学习中的可靠性提升:结合监督知识的方法
基于潜在变量推断的训练链式思维提升语言模型推理能力
多模态模型对齐与强化学习从人类反馈优化
生成高质量的长视频:SEINE视频扩散模型
基于语言、任务和指标的人工智能模型的一致性分析
大型语言模型效率研究综述
通用视觉基础模型:多任务学习实现高效零样本迁移
HiFi Tuner:基于扩散模型的高保真度个性化图像生成
多模态指令图像生成:Instruct-Imagen模型的创新与应用
对比解码提升大型语言模型推理能力
GridFormer 表结构识别方法
大型语言模型 (LLMs) 在应对需要任务规划和使用外部工具的任务时表现出了熟练的能力
大型语言模型在代码生成基准测试中表现出良好性能