CogVLM: Visual Expert for Pretrained Language Models

发布人

【加群】 一起来刷arxiv，请加vx: pwbot02(请备注：b站arxiv) 
【彩蛋】 可以试试/ask + 你的提问和本篇论文进行交流
【论文标题】 CogVLM: Visual Expert for Pretrained Language Models
【论文简述】 本论文介绍了CogVLM，一个强大的开源视觉语言基础模型。与流行的浅层对齐方法不同，CogVLM通过在注意力和FFN层中增加可训练的视觉专家模块来弥合预训练语言模型和图像编码器之间的差距。因此，CogVLM实现了视觉语言特征的深度融合，而不会在自然语言处理任务上牺牲性能。CogVLM-17B在10个经典的跨模态基准测试中取得了最先进的性能，包括NoCaps，Flicker30k图像描述，RefCOCO，RefCOCO +，RefCOCOg，Visual7W，GQA，ScienceQA，VizWiz VQA和TDIUC，并且在VQAv2，OKVQA，TextVQA，COCO图像描述等方面排名第二，超过或与PaLI-X 55B相匹配。代码和检查点可在https://github.com/THUDM/CogVLM上获得。
【引导阅读的问题】 你认为CogVLM的增加可训练的视觉专家模块能带来怎样的优势?
【论文链接】 https://arxiv.org/pdf/2311.03079

打开封面下载高清视频观看高清视频视频下载器

CogVLM: Visual Expert for Pretrained Language Models

【强推】吴恩达《自然语言处理|natural language processing》NLP中最重要的核心内容全整理好啦！这么好的课程还没人看？我不更了！！

Interactive Task Planning with Language Models

Making Large Language Models Perform Better in Knowledge Graph Completion

Memory Augmented Language Models through Mixture of Word Experts

【强推】这绝对是B站最系统的知识图谱入门到实战了，浙大教授带你7小时快速掌握，究极简单！

Simple and Scalable Strategies to Continually Pre-train Large Language Models

Controlled Decoding from Language Models

Exponentially Faster Language Modelling

Compressing Context to Enhance Inference Efficiency of Large Language Models

Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning

Kosmos-G: Generating Images in Context with Multimodal Large Language Models

Tuna: Instruction Tuning using Feedback from Large Language Models

BitNet: Scaling 1-bit Transformers for Large Language Models

Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-S

CreativeSynth: Creative Blending and Synthesis of Visual Arts based on Multimoda

【整整500集】微积分、概率论、泰勒公式、拉格朗日、贝叶斯分析、聚类分析等难懂的数学基础一套课程一网打尽！—人工智能/机器学习/高等数学

Moral Foundations of Large Language Models

FreeInit：弥合视频扩散模型初始化鸿沟以提升生成视频的时间一致性

How FaR Are Large Language Models From Agents with Theory-of-Mind?

TrustLLM: Trustworthiness in Large Language Models

LayoutPrompter: Awaken the Design Ability of Large Language Models

基于MMyolo框架的YOLOv5+Deepsort的鸡蛋检测系统 | 多区域可选定多目标跟踪应用 代码开源

Ai最火的Agent，你知道它多贵吗？

The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

【122集付费！】CNN、RNN、GAN、GNN、DQN、Transformer、LSTM等八大深度学习神经网络一口气全部学完！

LEGO:Language Enhanced Multi-modal Grounding Model

华理博士带你读深度学习经典论文！BERT+Mask Rcnn+CycleGAN 论文与源码详解+项目实例应用！

Ai里哪个领域不会被通用人工智能所取代？

Language Models can be Logical Solvers

我从来不用自己剪视频，因为我会用AI

Offline Actor-Critic Reinforcement Learning Scales to Large Models

Branch-Solve-Merge Improves Large Language Model Evaluation and Generation

Vision Mamba: Efficient Visual Representation Learning with Bidirectional State

GraphLLM: Boosting Graph Reasoning Ability of Large Language Model

强烈推荐！国防科技大学OpenCV图像处理全套教程！终于有人将opencv讲透了！存下吧，比啃书好多了！机器视觉/人脸检测/计算机视觉/人工智能

EvalCrafter: Benchmarking and Evaluating Large Video Generation Models

The Chosen One: Consistent Characters in Text-to-Image Diffusion Models

LoftQ: LoRA-Fine-Tuning-Aware Quantization for Large Language Models

Ai这些个框架都是怎么灭亡的？为何只有Pytorch活下来了？

Llemma: An Open Language Model For Mathematics

基于MMyolo框架的YOLOv5+Deepsort的鸡蛋检测系统 | 多区域可选定多目标跟踪应用代码开源