人工智能视觉语言模型对视觉错觉的感知

发布人

【彩蛋】 可以试试/ask + 你的提问和本篇论文进行交流
【论文标题】 Grounding Visual Illusions in Language: Do Vision-Language Models Perceive Illusions Like Humans?
【论文简述】 本文研究了人工智能视觉语言模型（Vision-Language Models，简称VLMs）对视觉错觉的感知能力。VLMs是通过对人类模拟世界理解所捕捉的大量数据进行训练的。然而，正如已知的视觉错觉一样，人类对现实的感知并不总是忠实于物理世界。这引发了一个重要问题：VLMs是否会像人类一样出现类似的错觉，还是它们真实地学习了表达现实的能力？为了调查这个问题，我们构建了一个包含五种类型视觉错觉的数据集，并制定了四个任务来检查最先进的VLMs中的视觉错觉。我们的研究结果表明，尽管整体对齐性较低，较大的模型更接近于人类感知并更容易受到视觉错觉的影响。我们的数据集和初步发现将促进对人类和机器中的视觉错觉有更好的理解，并为未来能够更好地使人类和机器在感知和交流共享视觉世界方面保持一致的计算模型提供一个基础。代码和数据可在https://github.com/vl-illusion/dataset获得。
【论文链接】 https://arxiv.org/pdf/2311.00047

打开封面下载高清视频观看高清视频视频下载器

人工智能视觉语言模型对视觉错觉的感知

基于协同学习的可组合视觉语言模型

STEVE：基于视觉感知、语言指导和代码行动的Minecraft智能体

CLIP作为RNN：无需训练即可分割无数视觉概念

大规模语言模型的训练与优化研究

通用视觉基础模型：多任务学习实现高效零样本迁移

大规模语言模型在多模态音乐理解与生成中的应用

大规模语言模型在科学中的应用：P vs. NP问题的研究

LoRAShear：一种有效的大型语言模型结构压缩方法

VCoder：为多模态大型语言模型提供视觉编码器的多功能视觉编码器

TiC-CLIP: Continual Training of CLIP Models

基于文本到图像扩散模型的文本到视频生成架构研究

解释性语言模型特征发现

大型语言模型在链式思维推理中的应用

专访和而泰，来自中国的元宇宙体感衣

小型语言模型的强大能力：TeacherLM-7.1B模型的研究

HallusionBench: You See What You Think? Or You Think What You See? An Image-Cont

大型语言模型效率研究综述

小模型大智慧：TinyGSM助力小规模语言模型在数学推理上超越大规模模型

注意力满足视角下语言模型事实错误研究

大规模多模态模型扩展研究

基于自然语言模型的离线强化学习框架LaMo

分布式大型语言模型的互联网低成本推理与微调

基于潜在变量推断的训练链式思维提升语言模型推理能力

基于大型语言模型的幻觉综述

利用FP8低位数据格式高效地训练大型语言模型

面向大型语言模型的有约束文本生成方法

“我要这样”：结合大型语言模型与约束编程实现交互式决策支持

生成高质量的长视频：SEINE视频扩散模型

大型语言模型如何从网络上的信息中辨别真假？

共训练和共蒸馏：提高预训练语言模型性能与推理速度的新框架

利用数据中心方法提升大型语言模型在金融领域的应用

SPHINX: 一种多模态大语言模型的联合混合方法

安全训练与语言模型的鲁棒性: 对Llama 2-Chat进行潜在微调的风险评估

快速高效文本到图像生成模型

大规模语言模型的Transformer架构及其批处理技术

LLM360：推动全透明开源大型语言模型研究

基于类增量分组网络的持续音频-视觉学习

多模态大型语言模型深度比较：Gemini与GPT-4V的全面评估与结合

对比解码提升大型语言模型推理能力

FreeControl：实现任意文本到图像扩散模型的无训练空间控制