V
主页
Vision Mamba: Efficient Visual Representation Learning with Bidirectional State
发布人
【加群】 一起来刷arxiv,请加vx: pwbot02(请备注:b站arxiv) 【论文标题】 Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model 【论文简述】 最近,具有高效硬件感知设计的状态空间模型(SSMs),如Mamba,在长序列建模方面显示出巨大的潜力。基于SSMs构建高效通用的视觉骨干网络是一个有吸引力的方向。然而,由于视觉数据的位置敏感性和对全局上下文的要求,为SSMs表示视觉数据具有挑战性。本文展示了视觉表示学习对自注意力的依赖并非必要,并提出了一种新的通用视觉骨干网络——双向Mamba块(Vim)。Vim通过位置嵌入标记图像序列,并利用双向状态空间模型压缩视觉表示。在ImageNet分类、COCO目标检测和ADE20k语义分割任务中,Vim相比于诸如DeiT之类的成熟视觉Transformer模型实现了更高的性能,并且还显著提高了计算和内存效率。例如,当在分辨率为1248×1248的图像上进行批量推断提取特征时,Vim比DeiT快2.8倍,并节省86.8%的GPU内存。实验结果表明,Vim能够克服对高分辨率图像进行Transformer风格理解时的计算和内存限制,并具有成为下一代视觉基础模型骨干网络的巨大潜力。代码可在https://github.com/hustvl/Vim找到。 【论文链接】 https://arxiv.org/abs/2401.09417
打开封面
下载高清视频
观看高清视频
视频下载器
非Transformmer架构站起来了! 首个纯无注意力大模型, 超越开源巨头Llama 3.1!这70种魔改思路不得不看
WaveMamba两篇同名撞车今日Arxiv(240805)!掐指一算,Mamba是时候排列组合到小波变换了[破涕为笑]
Mamba 超超超详细解说 | 3、环境配置
8月20日最新ChatGPT4.0使用教程,国内版免费网站,电脑手机版如何免下载安装通用2024
Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection
Question Aware Vision Transformer for Multimodal Reasoning
强推!这可能是B站最全的(Python+机器学习+深度学习)系列课程了,堪称人工智能系列课程的巅峰之作!-人工智能/深度学习/机器学习
GaussianImage: 1000 FPS Image Representation and Compression by 2D Gaussian Spla
Efficient Tool Use with Chain-of-Abstraction Reasoning
综述:大模型的可解释性研究
炸裂:上海保姆机器人要上岗!人工智能机器人
Visual In-Context Prompting
Implicit Diffusion: Efficient Optimization through Stochastic Sampling
An Image is Worth Multiple Words: Learning Object Level Concepts using Multi-Con
Transformer | 继承Mamba优势 | 线性注意力模块MLLA | 计算机视觉任务通用
Offline Actor-Critic Reinforcement Learning Scales to Large Models
Context-Aware Meta-Learning
Parrot: Pareto-optimal Multi-Reward Reinforcement Learning Framework for Text-to
Approximating Two-Layer Feedforward Networks for Efficient Transformers
CreativeSynth: Creative Blending and Synthesis of Visual Arts based on Multimoda
什么是卷积?强推!这绝对是全网最通俗易懂的【卷积神经网络教程】!草履虫听了都点头!人工智能、深度学习、机器学习
FMViT: A multiple-frequency mixing Vision Transformer
ai聊天 无敏感词无限制畅聊,支持自定义创建及语音,支持安卓、iOS端!
我在B站上大学!【完整版-麻省理工-微积分重点】全18讲!学数学不看的微积分课程,看完顺滑一整年。_人工智能数学基础/机器学习/微积分/麻省理工/高等数学
FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation
这才是科研人该学的!一口气学完线性回归、多项式回归、决策树等十大回归模型,从原理到实战,太通俗易懂了,比啃书强太多了!机器学习|深度学习|计算机视觉|人工智能
Reward-Augmented Decoding: Efficient Controlled Text Generation With a Unidirect
Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-S
In-Context Principle Learning from Mistakes
看小说还要付费?用python爬取付费萧索!免费下载
Learning to Learn Faster from Human Feedback with Language Model Predictive Cont
多模态协同学习模型
ICCV 2023 通过语言引导实现持续学习
EvoPrompt: AI Prompt Optimizer
【劝退】自学StableDiffusion能救一个是一个!这里面的水可深了!人工智能大佬专为零基础研制的StableDiffusion教学教程,太牛了!AI绘图
【AI女友】她太会了! AI女友无限制大胆开聊,多种人物角色等你攻略!
多模态基础模型研究综述
ImageBind-LLM: 多种模态指令调优
层次规划组合基础模型研究
模型训练,从记忆到泛化的顿悟之旅