VCoder：为多模态大型语言模型提供视觉编码器的多功能视觉编码器

发布人

【加群】 一起来刷arxiv，请加vx: pwbot02(请备注：b站arxiv) 
【论文标题】 VCoder：为多模态大型语言模型提供视觉编码器的多功能视觉编码器
【论文简述】 本文提出了一种名为VCoder的多功能视觉编码器，旨在提高多模态大型语言模型（MLLM）在视觉感知任务上的性能。VCoder通过接收分割或深度图等感知模态作为输入，增强了MLLM的感知能力。此外，作者们利用COCO数据集的图像和现成视觉感知模型的输出，创建了COCO分割文本（COST）数据集，用于训练和评估MLLM在对象感知任务上的表现。文章还引入了评估MLLM在COST数据集上对象感知能力的度量标准，并提供了广泛的实验证据，证明了VCoder在对象级感知技能上优于现有的多模态LLM，包括GPT-4V。研究结果表明，VCoder在对象计数和识别方面的表现显著优于现有的MLLM，为多模态LLM的感知和推理能力提供了新的视角。
【论文链接】 https://arxiv.org/abs/2312.14233

打开封面下载高清视频观看高清视频视频下载器

VCoder：为多模态大型语言模型提供视觉编码器的多功能视觉编码器

RLHF-V: 通过细粒度纠正性人工反馈实现值得信赖的多模态大型语言模型

蜜蜜蜂：一种局部增强的多模态大型语言模型投影器

SPHINX: 一种多模态大语言模型的联合混合方法

多模态大型语言模型Gemini在常识推理中的表现评估

Kosmos-G: Generating Images in Context with Multimodal Large Language Models

Vary: 大型视觉语言模型视觉词汇扩展新方法

LLaVA-Grounding：实现大型多模态模型的基于视觉的聊天

基于多模态工具的大型语言模型控制系统ControlLLM

大规模语言模型在多模态音乐理解与生成中的应用

基于CapsFusion的高质量多模态预训练数据生成

智能手机应用操作的多模态智能代理框架

多模态基础模型研究综述

基于协同学习的可组合视觉语言模型

FIND：通用接口实现跨模态任务的高效对齐与交互

基于统一视觉语言模型的图像和视频混合学习

稳定分数蒸馏：高质量三维生成新方法

基于上下文调整的检索增强生成方法

利用FP8低位数据格式高效地训练大型语言模型

大型语言模型生成内容质量自评估提升选择性生成

面向大型语言模型的有约束文本生成方法

Densely Captioned Images: 评估视觉语言模型的新基准

对比激活添加：精确操控大型语言模型行为的新方法

利用Atom低位量化技术提升大型语言模型服务吞吐量

【AI Drive】天津大学副教授张长青：多模态融合的基础问题及算法研究

分布式大型语言模型的互联网低成本推理与微调

大规模语言模型结合神经符号模型的生成型神经符号视觉推理

人工智能视觉语言模型对视觉错觉的感知

大型语言模型在上下文学习中的可靠性提升：结合监督知识的方法

基于潜在变量推断的训练链式思维提升语言模型推理能力

多模态模型对齐与强化学习从人类反馈优化

生成高质量的长视频：SEINE视频扩散模型

基于语言、任务和指标的人工智能模型的一致性分析

大型语言模型效率研究综述

通用视觉基础模型：多任务学习实现高效零样本迁移

HiFi Tuner：基于扩散模型的高保真度个性化图像生成

多模态指令图像生成：Instruct-Imagen模型的创新与应用

对比解码提升大型语言模型推理能力

GridFormer 表结构识别方法

大型语言模型 (LLMs) 在应对需要任务规划和使用外部工具的任务时表现出了熟练的能力

大型语言模型在代码生成基准测试中表现出良好性能