【每日论文3.22】Cobra：将Mamba扩展到多模态大语言模型以实现高效推理

发布人

【标题】
Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference
【链接】
https://arxiv.org/abs/2403.14520
【作者】
Han Zhao, Min Zhang, Wei Zhao, Pengxiang Ding, Siteng Huang, Donglin Wang
【机构】
Westlake University, Zhejiang University
【摘要】
近年来，多模态大型语言模型（MLLM）在自然语言理解任务中的应用取得了显著的成功。然而，现有的MLLM大多基于计算复杂度较高的Transformer网络。为了提高基础模型的效率，本文提出了Cobra，这是一个具有线性计算复杂度的MLLM。Cobra将高效的Mamba语言模型与视觉模态相结合，并通过探索多种模态融合方案，创建了一个有效的多模态Mamba模型。广泛的实验表明，Cobra在与当前计算效率高的先进方法（例如LLaVA-Phi、TinyLLaVA和MobileVLM v2）相比时，展现出极具竞争力的性能，并且在速度上更快。有趣的是，闭集挑战性预测基准的结果显示，Cobra在克服视觉幻觉和空间关系判断方面表现良好。值得注意的是，Cobra在参数数量约为LLaVA 43%的情况下，仍能实现与LLaVA相当的性能。我们将Cobra的所有代码开源，希望所提出的方法能够促进未来MLLM复杂性问题的研究。我们的项目页面可在以下链接访问：https://sites.google.com/view/cobravlm。

打开封面下载高清视频观看高清视频视频下载器

【每日论文3.22】Cobra：将Mamba扩展到多模态大语言模型以实现高效推理

【多模态论文解读】llama3.2-vision

EMNLP2024分享会之多模态主题

【多模态机器学习 11-777 2023】卡耐基梅隆—中英字幕

深度学习-如何包装论文和模块(以我们自己sci3区论文为例)

深度学习+遥感，这口饭得趁热吃啊！绝佳A会创新点！！！

MLLM多模态大模型三大奠基模型：VIT/CLIP/BLIP模型原理详解+项目实战，通俗易懂的大模型入门教程！

【大模型】Jamba！AI21实验室混合架构Mamba+Transformer+MoE???

70年老算法Dijkstra被证明普遍最优 斩获顶会FOCS 2024最佳论文

【每日论文3.19】我们何时不需要更大的视觉模型？

【每日论文3.28】Mini-Gemini：视觉语言模型怎么打过GPT-4和Gemini？

1B多模态小模型只用于图片中表格的结构化提取，支持latex，markdown，html三种格式，效果似乎有点难说

研究生如何快速找到并复现论文代码？用20分钟手把手带你！看完包会的！！--人工智能/深度学习/神经网络

Ferret-UI 2：拥有跨平台UI理解的多模态大模型

多模态大模型发展简述及其微调部署实践(InternVL2为例)

【AI虚拟伙伴】对接本地Ollama VLM教程 图像识别多模态大模型推荐

Talk | 香港科技大学叶汉荣：X-VILA - 大语言模型的跨模态对齐

【限时开放】最新AI人工智能零基础全套课程！探究AI原理+大量实操项目，机器学习/深度学习/神经网络/大语言模型

爆肝整理！CVPR2024可复现论文合集，原文/代码/演示全都有！（深度学习/计算机视觉）

离实现通用人工智能（AGI）还有多远？人工智能课程

都在聊大模型，那怎么评价多模态大模型的好坏呢？

【讨论班】多模态基础模型综述（1）：从专用系统到通用助手

原理代码讲解|傅里叶对比正则化损失 ECCV2024 样本间的差异 不影响训练速度 即插即用模块【V1代码讲解054】

【每日论文3.28】ViTAR：引领多分辨率图像处理新纪元

绝对通俗易懂！9小时精讲大模型预训练微调+四大多模态大模型CLIP BLIP VIT MLLM+对话机器人办公助手

【LLM前沿】6小时精讲四大多模态大模型CLIP BLIP VIT MLLM及对话机器人办公助手！绝对的通俗易懂的大模型应用教程！

【每日论文3.29】Gecko：从大语言模型中提炼多功能文本嵌入

这位朋友上来就啃花书西瓜书包学不会的，明明应该先确定好方向和读研目的，而不是只有行为没有落地！-深度学习/机器学习

【每日论文3.20】Meta新研究：反向训练破解语言模型的反转诅咒

温和的走进深度学习（下）

北大发布多模态大模型LLaVA-o1，推理计算Scaling新思路

大语言模型课程Lesson1-2 借助ChaGPT-Claude等大语言模型工具提高学习及工作效率

【每日论文3.21】A3T框架：自主轨迹注释与对比自训练提升语言代理性能

如何部署一个属于自己的ChatGLM-4大语言模型--环境配置+模型微调+模型部署+效果展示,手把手教会你！

【每日论文3.28】sDPO：分步优化提升LLM与人类偏好一致性

导！一区和三区有什么区别？能不能发？既要缝故事也要缝代码！【布尔论文急救指南004】

Research Track 8：比较关注的一些论文

用代码合成的抽象图表构建多模态基准|EMNLP 2024浙大张文祺

研一，在学机器学习和深度学习，为什么感觉越学越不会，怎么解决这个问题

英伟达发布MM-Embed：融合文本和图像的跨模态信息检索新模型

GPT o1模型使用及API调用

70年老算法Dijkstra被证明普遍最优斩获顶会FOCS 2024最佳论文

【AI虚拟伙伴】对接本地Ollama VLM教程图像识别多模态大模型推荐

原理代码讲解|傅里叶对比正则化损失 ECCV2024 样本间的差异不影响训练速度即插即用模块【V1代码讲解054】