基于协同学习的可组合视觉语言模型

发布人

【加群】 一起来刷arxiv，请加vx: pwbot02(请备注：b站arxiv) 
【彩蛋】 可以试试/ask + 你的提问和本篇论文进行交流
【论文标题】 CoVLM: Composing Visual Entities and Relationships in Large Language Models Via Communicative Decoding
【论文简述】 本论文研究了人类在复合推理方面的卓越能力，即通过有限手段实现“无限可能”。然而，现有的大型视觉语言基础模型（VLMs）由于其“词袋”行为和无法正确表示视觉实体及实体之间关系的词语构成能力不足，无法实现这种复合能力。为此，我们提出了CoVLM，它可以引导LLM在文本中明确地组合视觉实体与关系，并与视觉编码器和检测网络进行动态通信，实现视觉语言的交互解码。具体来说，我们首先为LLM设计了一组新的通信标记，用于视觉检测系统和语言系统之间的动态通信。LLM根据视觉实体或关系生成通信标记，通知检测网络提出与已生成的句子相关的区域提案。提议的感兴趣区域（ROIs）然后反馈到LLM中，以实现基于相关区域的更好语言生成。LLM能够通过通信标记来组合视觉实体和关系。直到完整的句子生成为止，视觉到语言和语言到视觉的通信将被迭代地执行。我们的框架无缝地弥合了视觉感知和LLMs之间的差距，并在复合推理基准测试上显著优于先前的VLMs（例如，在HICO-DET mAP上提高了约20％，在Cola top-1准确度上提高了约14％，在ARO top-1准确度上提高了约3％）。我们还在传统的视觉语言任务（如指称表达理解和视觉问题回答）上取得了最先进的性能。
【引导阅读的问题】 如何提高大型视觉语言基础模型的复合推理能力？
【论文链接】 https://arxiv.org/pdf/2311.03354

打开封面下载高清视频观看高清视频视频下载器

基于协同学习的可组合视觉语言模型

人工智能视觉语言模型对视觉错觉的感知

基于统一视觉语言模型的图像和视频混合学习

基于认知树的小型语言模型推理能力提升

用视觉语言模型自动生成奖励函数，训练多目标强化学习智能体

大规模语言模型的训练与优化研究

大规模语言模型结合神经符号模型的生成型神经符号视觉推理

基于语言模型的知识探测和推理方法

PromptBench：全面评估大型语言模型的统一框架

PixelLLM：通过像素对齐实现视觉语言模型的精确定位

解释性语言模型特征发现

基于类增量分组网络的持续音频-视觉学习

大规模语言模型的数学求解能力的安全性评估

多语言大型语言模型训练数据集CulturaX

探索大型语言模型在工业芯片设计中的应用

基于语言、任务和指标的人工智能模型的一致性分析

SPHINX: 一种多模态大语言模型的联合混合方法

小型语言模型的强大能力：TeacherLM-7.1B模型的研究

从人类反馈中学习：纳什学习在大型语言模型中的应用

Sorted LLaMA: 动态推理解锁大型语言模型中间层潜力

LoRAShear：一种有效的大型语言模型结构压缩方法

基于潜在变量推断的训练链式思维提升语言模型推理能力

大规模多模态模型扩展研究

基于文本到图像扩散模型的文本到视频生成架构研究

蜜蜜蜂：一种局部增强的多模态大型语言模型投影器

共训练和共蒸馏：提高预训练语言模型性能与推理速度的新框架

小模型大智慧：TinyGSM助力小规模语言模型在数学推理上超越大规模模型

大型语言模型生成内容质量自评估提升选择性生成

语义压缩：扩展大型语言模型的上下文窗口

大规模语言模型的Transformer架构及其批处理技术

STEVE：基于视觉感知、语言指导和代码行动的Minecraft智能体

大型语言模型作为优化器

Merlin：赋予多模态大型语言模型未来洞察力

利用数据中心方法提升大型语言模型在金融领域的应用

大型语言模型效率研究综述

【AI Drive】AAAI 2022：基于对比学习的预训练语言模型剪枝压缩

语言模型+三维世界:下一代AI助手来了

Video-Bench: 全面评估视频大型语言模型的基准测试和工具包

基于语言模型的理解与规划框架

“我要这样”：结合大型语言模型与约束编程实现交互式决策支持

分布式大型语言模型的互联网低成本推理与微调