Vision Mamba: Efficient Visual Representation Learning with Bidirectional State

发布人

【加群】 一起来刷arxiv，请加vx: pwbot02(请备注：b站arxiv) 
【论文标题】 Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model
【论文简述】 最近，具有高效硬件感知设计的状态空间模型（SSMs），如Mamba，在长序列建模方面显示出巨大的潜力。基于SSMs构建高效通用的视觉骨干网络是一个有吸引力的方向。然而，由于视觉数据的位置敏感性和对全局上下文的要求，为SSMs表示视觉数据具有挑战性。本文展示了视觉表示学习对自注意力的依赖并非必要，并提出了一种新的通用视觉骨干网络——双向Mamba块（Vim）。Vim通过位置嵌入标记图像序列，并利用双向状态空间模型压缩视觉表示。在ImageNet分类、COCO目标检测和ADE20k语义分割任务中，Vim相比于诸如DeiT之类的成熟视觉Transformer模型实现了更高的性能，并且还显著提高了计算和内存效率。例如，当在分辨率为1248×1248的图像上进行批量推断提取特征时，Vim比DeiT快2.8倍，并节省86.8%的GPU内存。实验结果表明，Vim能够克服对高分辨率图像进行Transformer风格理解时的计算和内存限制，并具有成为下一代视觉基础模型骨干网络的巨大潜力。代码可在https://github.com/hustvl/Vim找到。
【论文链接】 https://arxiv.org/abs/2401.09417

打开封面下载高清视频观看高清视频视频下载器

Vision Mamba: Efficient Visual Representation Learning with Bidirectional State

非Transformmer架构站起来了! 首个纯无注意力大模型， 超越开源巨头Llama 3.1！这70种魔改思路不得不看

WaveMamba两篇同名撞车今日Arxiv（240805）！掐指一算，Mamba是时候排列组合到小波变换了[破涕为笑]

Mamba 超超超详细解说 ｜ 3、环境配置

8月20日最新ChatGPT4.0使用教程，国内版免费网站，电脑手机版如何免下载安装通用2024

Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection

Question Aware Vision Transformer for Multimodal Reasoning

强推！这可能是B站最全的（Python＋机器学习＋深度学习）系列课程了，堪称人工智能系列课程的巅峰之作！-人工智能/深度学习/机器学习

GaussianImage: 1000 FPS Image Representation and Compression by 2D Gaussian Spla

Efficient Tool Use with Chain-of-Abstraction Reasoning

综述：大模型的可解释性研究

炸裂：上海保姆机器人要上岗！人工智能机器人

Visual In-Context Prompting

Implicit Diffusion: Efficient Optimization through Stochastic Sampling

An Image is Worth Multiple Words: Learning Object Level Concepts using Multi-Con

Transformer | 继承Mamba优势 | 线性注意力模块MLLA | 计算机视觉任务通用

Offline Actor-Critic Reinforcement Learning Scales to Large Models

Context-Aware Meta-Learning

Parrot: Pareto-optimal Multi-Reward Reinforcement Learning Framework for Text-to

Approximating Two-Layer Feedforward Networks for Efficient Transformers

CreativeSynth: Creative Blending and Synthesis of Visual Arts based on Multimoda

什么是卷积？强推！这绝对是全网最通俗易懂的【卷积神经网络教程】！草履虫听了都点头！人工智能、深度学习、机器学习

FMViT: A multiple-frequency mixing Vision Transformer

ai聊天 无敏感词无限制畅聊，支持自定义创建及语音，支持安卓、iOS端！

我在B站上大学!【完整版-麻省理工-微积分重点】全18讲！学数学不看的微积分课程，看完顺滑一整年。_人工智能数学基础/机器学习/微积分/麻省理工/高等数学

FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation

这才是科研人该学的！一口气学完线性回归、多项式回归、决策树等十大回归模型，从原理到实战，太通俗易懂了，比啃书强太多了！机器学习|深度学习|计算机视觉|人工智能

Reward-Augmented Decoding: Efficient Controlled Text Generation With a Unidirect

Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-S

In-Context Principle Learning from Mistakes

看小说还要付费？用python爬取付费萧索！免费下载

Learning to Learn Faster from Human Feedback with Language Model Predictive Cont

多模态协同学习模型

ICCV 2023 通过语言引导实现持续学习

EvoPrompt: AI Prompt Optimizer

【劝退】自学StableDiffusion能救一个是一个！这里面的水可深了！人工智能大佬专为零基础研制的StableDiffusion教学教程，太牛了！AI绘图

【AI女友】她太会了! AI女友无限制大胆开聊，多种人物角色等你攻略!

多模态基础模型研究综述

ImageBind-LLM: 多种模态指令调优

层次规划组合基础模型研究

模型训练，从记忆到泛化的顿悟之旅

非Transformmer架构站起来了! 首个纯无注意力大模型，超越开源巨头Llama 3.1！这70种魔改思路不得不看

Mamba 超超超详细解说｜ 3、环境配置

ai聊天无敏感词无限制畅聊，支持自定义创建及语音，支持安卓、iOS端！