V
主页
【每日论文3.22】Cobra:将Mamba扩展到多模态大语言模型以实现高效推理
发布人
【标题】 Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference 【链接】 https://arxiv.org/abs/2403.14520 【作者】 Han Zhao, Min Zhang, Wei Zhao, Pengxiang Ding, Siteng Huang, Donglin Wang 【机构】 Westlake University, Zhejiang University 【摘要】 近年来,多模态大型语言模型(MLLM)在自然语言理解任务中的应用取得了显著的成功。然而,现有的MLLM大多基于计算复杂度较高的Transformer网络。为了提高基础模型的效率,本文提出了Cobra,这是一个具有线性计算复杂度的MLLM。Cobra将高效的Mamba语言模型与视觉模态相结合,并通过探索多种模态融合方案,创建了一个有效的多模态Mamba模型。广泛的实验表明,Cobra在与当前计算效率高的先进方法(例如LLaVA-Phi、TinyLLaVA和MobileVLM v2)相比时,展现出极具竞争力的性能,并且在速度上更快。有趣的是,闭集挑战性预测基准的结果显示,Cobra在克服视觉幻觉和空间关系判断方面表现良好。值得注意的是,Cobra在参数数量约为LLaVA 43%的情况下,仍能实现与LLaVA相当的性能。我们将Cobra的所有代码开源,希望所提出的方法能够促进未来MLLM复杂性问题的研究。我们的项目页面可在以下链接访问:https://sites.google.com/view/cobravlm。
打开封面
下载高清视频
观看高清视频
视频下载器
【多模态论文解读】llama3.2-vision
EMNLP2024分享会之多模态主题
【多模态机器学习 11-777 2023】卡耐基梅隆—中英字幕
深度学习-如何包装论文和模块(以我们自己sci3区论文为例)
深度学习+遥感,这口饭得趁热吃啊!绝佳A会创新点!!!
MLLM多模态大模型三大奠基模型:VIT/CLIP/BLIP模型原理详解+项目实战,通俗易懂的大模型入门教程!
【大模型】Jamba!AI21实验室混合架构Mamba+Transformer+MoE???
70年老算法Dijkstra被证明普遍最优 斩获顶会FOCS 2024最佳论文
【每日论文3.19】我们何时不需要更大的视觉模型?
【每日论文3.28】Mini-Gemini:视觉语言模型怎么打过GPT-4和Gemini?
1B多模态小模型只用于图片中表格的结构化提取,支持latex,markdown,html三种格式,效果似乎有点难说
研究生如何快速找到并复现论文代码?用20分钟手把手带你!看完包会的!!--人工智能/深度学习/神经网络
Ferret-UI 2:拥有跨平台UI理解的多模态大模型
多模态大模型发展简述及其微调部署实践(InternVL2为例)
【AI虚拟伙伴】对接本地Ollama VLM教程 图像识别多模态大模型推荐
Talk | 香港科技大学叶汉荣:X-VILA - 大语言模型的跨模态对齐
【限时开放】最新AI人工智能零基础全套课程!探究AI原理+大量实操项目,机器学习/深度学习/神经网络/大语言模型
爆肝整理!CVPR2024可复现论文合集,原文/代码/演示全都有!(深度学习/计算机视觉)
离实现通用人工智能(AGI)还有多远?人工智能课程
都在聊大模型,那怎么评价多模态大模型的好坏呢?
【讨论班】多模态基础模型综述(1):从专用系统到通用助手
原理代码讲解|傅里叶对比正则化损失 ECCV2024 样本间的差异 不影响训练速度 即插即用模块【V1代码讲解054】
【每日论文3.28】ViTAR:引领多分辨率图像处理新纪元
绝对通俗易懂!9小时精讲大模型预训练微调+四大多模态大模型CLIP BLIP VIT MLLM+对话机器人办公助手
【LLM前沿】6小时精讲四大多模态大模型CLIP BLIP VIT MLLM及对话机器人办公助手!绝对的通俗易懂的大模型应用教程!
【每日论文3.29】Gecko:从大语言模型中提炼多功能文本嵌入
这位朋友上来就啃花书西瓜书包学不会的,明明应该先确定好方向和读研目的,而不是只有行为没有落地!-深度学习/机器学习
【每日论文3.20】Meta新研究:反向训练破解语言模型的反转诅咒
温和的走进深度学习(下)
北大发布多模态大模型LLaVA-o1,推理计算Scaling新思路
大语言模型课程Lesson1-2 借助ChaGPT-Claude等大语言模型工具提高学习及工作效率
【每日论文3.21】A3T框架:自主轨迹注释与对比自训练提升语言代理性能
如何部署一个属于自己的ChatGLM-4大语言模型--环境配置+模型微调+模型部署+效果展示,手把手教会你!
【每日论文3.28】sDPO:分步优化提升LLM与人类偏好一致性
导!一区和三区有什么区别?能不能发?既要缝故事也要缝代码!【布尔论文急救指南004】
Research Track 8:比较关注的一些论文
用代码合成的抽象图表构建多模态基准|EMNLP 2024浙大张文祺
研一,在学机器学习和深度学习,为什么感觉越学越不会,怎么解决这个问题
英伟达发布MM-Embed:融合文本和图像的跨模态信息检索新模型
GPT o1模型使用及API调用