非Transformmer架构站起来了! 首个纯无注意力大模型，超越开源巨头Llama 3.1！这70种魔改思路不得不看 - 视频下载 Video Downloader

非Transformmer架构站起来了! 首个纯无注意力大模型，超越开源巨头Llama 3.1！这70种魔改思路不得不看

发布人

打开封面下载高清视频观看高清视频视频下载器

用Mamba设计1.8M参数UNet，比U-Mamba小近100倍，精度依旧完成超车！

Jamba击败Transformer，全新Mamba魔改完成逆袭！

Transformer最新进展：性能大幅度超出一众SOTA模型！26种魔改方法

YOLO再突破！拿下ECCV24满分，能耗降低5.7倍！29种最新改进

爆火神经网络架构KAN更新2.0！研究者可专属定制，轻松应对经典物理学研究！ -人工智能/深度学习/机器学习

马斯克 Flux 只是过渡，即将推出自研文生图；通用 FLUX ControlNet 模型；Runway 向所有人开放【地址在三花AI自取】

Transformer与Mamba最强联合体：最新量化技术加持256K上下文，语言模型进化从未停歇

AI大模型没有真正的问题解决能力，解决方法居然只是… ：时代周刊全球百大AI人物！

【小样本合集】小样本学习必读的15篇顶会论文

【迄今为止最先进的模型】博士精讲CLIP、BLIP-2等多模态大模型落地应用！视觉Agent、ChatGLM、ChatGPT人工智能AI

价值1000亿美金的AI模型将拥有诺贝尔奖得主的能力水平！ OpenAI最强竞争对手Anthropic CEO：如果规模法则的假设成立的话

医疗影像识別革命：结合CNN与SSM技术，又和Mamba有关！

超越GPT-4o，阿里新开源Qwen2-VL视觉语言模型

黑曼巴来袭！长序列语言模型建模新方案，1.5B/2.8B版本已开源

今天给大家推荐一本蛇尾书，大模型时代的启动手册！

Mamba再下一城：与CNN&Transformer结合设计，大幅降低标注成本和资源

深度学习魔改的12种特征融合方法

【Ai教程】只要用对话就能编程Cursor制作FLUX图片生成器自动化无需代码基础自带GPT4o和Claude3.5模型

大的来了！OpenAI即将发布草莓模型比GPT4好100倍

【大模型书籍推荐】从零构建大模型千万别乱看书！这本书直接封神了！一书从零构建LLM大模型（附PDF）

Patch才是时序预测的王道？最新工作超越Transformer取得SOTA

GNN与Transformer完美融合，模型迎来“性能大爆炸”！18种最好的结合思路

高效多尺度注意力模型成为YOLOv5改进的小帮手

不到256KBMemory就实现了单片机上的神经网络训练，开销不到PyTorch的千分之一（附原文和代码）

为什么GPT 5将永远改变世界？OpenAI 官方很快公开宣布名为“Strawberry”草莓大模型！

Simon遇到挂红温彪脏话

我在 ESP32 上运行了本地大语言模型 - 这是发生的事情

告别传统长文本切块！先编码后分块新策略，让RAG信息检索又准又高效

清华提出最新移动端高效网络架构注意力机制与卷积的完美融合

百里挑一“萃取”数据精华！上海AI实验室开源发布高质量语料

盘点一周AI大事(9月8日)｜GPT5订阅价格离大谱！

新改进! LSTM与注意力机制结合，性能整个拿捏住！来看9种创新思路

不得不看的Mamba实证研究：英伟达、普林斯顿等联合出品，首创80亿参数Mamba+注意力互补新变体

即插即用的注意力模块激活更多有用的像素

人脸识别路漫漫，清北大提出AT3D人脸识别系统攻击方法 | CVPR 2023

特征融合再突破：掀翻一众FPN，性能新巅峰！44种特征融合方法盘点

亲测地表最强 AI 编辑器 Cursor！无需编码，竟然真能开发出2048游戏！

吹爆！这可能是导师都不讲的大模型面试分享，不愧是华为前首席技术官！2小时带你拆解AI大模型面试的底层逻辑，还通不过面试你来打我！人工智能|机器学习|深度学习

为什么现在的大模型都decoder-only？这3篇必读论文给你答案！

OpenAI近几个月没声音了，美国AI与大模型可能走入死胡同