V
主页
基于协同学习的可组合视觉语言模型
发布人
【加群】 一起来刷arxiv,请加vx: pwbot02(请备注:b站arxiv) 【彩蛋】 可以试试/ask + 你的提问和本篇论文进行交流 【论文标题】 CoVLM: Composing Visual Entities and Relationships in Large Language Models Via Communicative Decoding 【论文简述】 本论文研究了人类在复合推理方面的卓越能力,即通过有限手段实现“无限可能”。然而,现有的大型视觉语言基础模型(VLMs)由于其“词袋”行为和无法正确表示视觉实体及实体之间关系的词语构成能力不足,无法实现这种复合能力。为此,我们提出了CoVLM,它可以引导LLM在文本中明确地组合视觉实体与关系,并与视觉编码器和检测网络进行动态通信,实现视觉语言的交互解码。具体来说,我们首先为LLM设计了一组新的通信标记,用于视觉检测系统和语言系统之间的动态通信。LLM根据视觉实体或关系生成通信标记,通知检测网络提出与已生成的句子相关的区域提案。提议的感兴趣区域(ROIs)然后反馈到LLM中,以实现基于相关区域的更好语言生成。LLM能够通过通信标记来组合视觉实体和关系。直到完整的句子生成为止,视觉到语言和语言到视觉的通信将被迭代地执行。我们的框架无缝地弥合了视觉感知和LLMs之间的差距,并在复合推理基准测试上显著优于先前的VLMs(例如,在HICO-DET mAP上提高了约20%,在Cola top-1准确度上提高了约14%,在ARO top-1准确度上提高了约3%)。我们还在传统的视觉语言任务(如指称表达理解和视觉问题回答)上取得了最先进的性能。 【引导阅读的问题】 如何提高大型视觉语言基础模型的复合推理能力? 【论文链接】 https://arxiv.org/pdf/2311.03354
打开封面
下载高清视频
观看高清视频
视频下载器
人工智能视觉语言模型对视觉错觉的感知
基于统一视觉语言模型的图像和视频混合学习
基于认知树的小型语言模型推理能力提升
用视觉语言模型自动生成奖励函数,训练多目标强化学习智能体
大规模语言模型的训练与优化研究
大规模语言模型结合神经符号模型的生成型神经符号视觉推理
基于语言模型的知识探测和推理方法
PromptBench:全面评估大型语言模型的统一框架
PixelLLM:通过像素对齐实现视觉语言模型的精确定位
解释性语言模型特征发现
基于类增量分组网络的持续音频-视觉学习
大规模语言模型的数学求解能力的安全性评估
多语言大型语言模型训练数据集CulturaX
探索大型语言模型在工业芯片设计中的应用
基于语言、任务和指标的人工智能模型的一致性分析
SPHINX: 一种多模态大语言模型的联合混合方法
小型语言模型的强大能力:TeacherLM-7.1B模型的研究
从人类反馈中学习:纳什学习在大型语言模型中的应用
Sorted LLaMA: 动态推理解锁大型语言模型中间层潜力
LoRAShear:一种有效的大型语言模型结构压缩方法
基于潜在变量推断的训练链式思维提升语言模型推理能力
大规模多模态模型扩展研究
基于文本到图像扩散模型的文本到视频生成架构研究
蜜蜜蜂:一种局部增强的多模态大型语言模型投影器
共训练和共蒸馏:提高预训练语言模型性能与推理速度的新框架
小模型大智慧:TinyGSM助力小规模语言模型在数学推理上超越大规模模型
大型语言模型生成内容质量自评估提升选择性生成
语义压缩:扩展大型语言模型的上下文窗口
大规模语言模型的Transformer架构及其批处理技术
STEVE:基于视觉感知、语言指导和代码行动的Minecraft智能体
大型语言模型作为优化器
Merlin:赋予多模态大型语言模型未来洞察力
利用数据中心方法提升大型语言模型在金融领域的应用
大型语言模型效率研究综述
【AI Drive】AAAI 2022:基于对比学习的预训练语言模型剪枝压缩
语言模型+三维世界:下一代AI助手来了
Video-Bench: 全面评估视频大型语言模型的基准测试和工具包
基于语言模型的理解与规划框架
“我要这样”:结合大型语言模型与约束编程实现交互式决策支持
分布式大型语言模型的互联网低成本推理与微调