V
主页
CogAgent:一款面向图形用户界面的18亿参数视觉语言模型
发布人
【加群】 一起来刷arxiv,请加vx: pwbot02(请备注:b站arxiv) 【论文标题】 CogAgent:一款面向图形用户界面的18亿参数视觉语言模型 【论文简述】 随着大型语言模型(LLMs)的出现,基于语言的智能代理正逐渐成为现实。然而,当前的LLMs在理解和交互图形用户界面(GUI)方面存在局限性,因为GUIs通常包含图标、图像、图表等难以用文字表达的信息。为此,本文提出了CogAgent,一款专注于GUI理解和导航的18亿参数视觉语言模型(VLM)。CogAgent利用低分辨率和高分辨率图像编码器,支持输入分辨率达到1120×1120,能够识别微小的页面元素和文本。实验结果表明,CogAgent在多个GUI理解和决策基准测试中超越了现有的LLM方法,同时在多个通用视觉问答基准测试中达到了最先进的性能。CogAgent的开源将有助于推动未来基于VLM的智能代理的研究和应用。 【论文链接】 https://arxiv.org/abs/2312.08914
打开封面
下载高清视频
观看高清视频
视频下载器
CogAgent:我们的「Computer Use」
CogAgent:具备GUI能力的大模型
Vary: 大型视觉语言模型视觉词汇扩展新方法
面向大型语言模型的有约束文本生成方法
VCoder:为多模态大型语言模型提供视觉编码器的多功能视觉编码器
LLAMA PRO:基于Transformer块扩展的渐进式大型语言模型
JaxMARL: Multi-Agent RL Environments in JAX
李飞飞团队佳作不断:聚焦机器人抓取交互,让机器人操作真正地适应各种环境
MusicAgent: An AI Agent for Music Understanding and Generation with Large Langua
PromptBench:全面评估大型语言模型的统一框架
PixelLLM:通过像素对齐实现视觉语言模型的精确定位
基于统一视觉语言模型的图像和视频混合学习
CLIP作为RNN:无需训练即可分割无数视觉概念
MindAgent: LLM Multi-Agents Collaboration Benchmark
基于协同学习的可组合视觉语言模型
LLaVA-Grounding:实现大型多模态模型的基于视觉的聊天
SOTOPIA-$π$: Interactive Learning of Socially Intelligent Language Agents
面向潜扩散模型的高效量化策略
FedKSeed:实现低通信开销的十亿级语言模型联合全参数微调
Video-Bench: 全面评估视频大型语言模型的基准测试和工具包
Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning
More Agents Is All You Need
基于潜在变量推断的训练链式思维提升语言模型推理能力
开源 | 场景语言的力量:用程序、单词和嵌入表示 场景,精准描绘3D/4D世界
基于语言模型的理解与规划框架
第90集 | 视觉语言模型 | 多模态、图像描述、文本生成图像 | VLM 的优势
多模态大型语言模型深度比较:Gemini与GPT-4V的全面评估与结合
大型语言模型:从训练到推理的全面综述
大规模语言模型结合神经符号模型的生成型神经符号视觉推理
无需相机参数的3D高斯散射:COLMAP-Free 3DGS实现稳健的视角合成与姿态估计
GPT-4V在视觉问答任务中的能力评估
北大发布多模态大模型LLaVA-o1,推理计算Scaling新思路
闪电注意力-2:大型语言模型处理无限序列长度的高效方法
大型语言模型作为优化器
Densely Captioned Images: 评估视觉语言模型的新基准
基于认知树的小型语言模型推理能力提升
大型语言模型效率研究综述
TinyLlama:开源小型语言模型的新突破
LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents
HallusionBench: You See What You Think? Or You Think What You See? An Image-Cont