V
主页
【研1基本功 (真的很简单)Test-Time Training (TTT) part1】超越Transformer | Mamba 真的假的?
发布人
先看文档哈 https://dwexzknzsh8.feishu.cn/docx/VkYud3H0zoDTrrxNX5lce0S4nDh?from=from_copylink
打开封面
下载高清视频
观看高清视频
视频下载器
强到离谱!全新大模型最强架构TTT问世!有望替代Transformer?彻底改变语言模型,性能比Mamba更好!
李沐-YOLOv3史上写的最烂的论文-但很work
【研1基本功 (真的很简单)Test-Time Training (TTT) part2】实现TTTBase 超越Transformer 真的假的?
2024,MambaOut,火爆的Mamba结构实际上并不好用!
斯坦福推出“TTT新架构”!超越Transformer与Mamba,让模型{学会学习}!
逆天论文标题mamba out纪念牢大
介绍Transfomer有力竞争者:Mamba-1,Mamba-2,TTT模型
【研1基本功 (真的很简单)注意力机制】手写多头注意力机制
【研1基本功 (真的很简单)Diffusion Vision Transformer (DiT)】构建DiT核心代码
【研1基本功 (真的很简单)Decoder Encoder】手写Decoder Layer 准备召唤Transformer
【研1基本功 (真的很简单)Diffusion Model】完成扩散模型!!结尾有bonus!!
AI大讲堂:革了Transformer的小命?专业拆解【Mamba模型】
TTT(test-time-training)新模型架构来啦,超越Transformer和Mamba架构了吗?家人们,你们怎么看?
【研1基本功 (真的很简单)Diffusion Model】构建预测噪声网络
彻底改变语言模型:全新架构TTT超越Transformer,ML模型代替RNN隐藏状态!——人工智能|机器学习|深度学习
【研1.5基本功 (真的很简单)DeepSpeed & Accelerate】学点大模型基建准没错
【研1基本功 (真的很简单)Diffusion Model】构建前向、反向过程所需参数
【研1基本功 (真的很简单)召唤Transformer】手写“变压器”or“变形金刚”
从零开始学Mamba(7) Mamba is not a snake!(Code)
【研1基本功 (真的很简单)Encoder Embedding】手写编码模块、构建Encoder Layer
【研1基本功 (真的很简单)Diffusion Model】搞定采样过程(反向过程)
Mamba从数学推导到代码的一条龙?看一遍就够了!
什么!斯坦福和伯克利发布的最新大模型-TTT,竟然把老牌选手Transformer和Manba都给超超越了!
【研1基本功 (真的很简单)LoRA 低秩微调】大模型微调基本方法1 —— bonus "Focal loss"
从零开始学Mamba(1)Transformer有毛病
毕设20行代码实现对话AI,被导师轰出了教室!
之前学过pyqt觉得pyqt是个lowb,现在嘛每单多拿几百块钱是真香
【研1基本功 (真的很简单)Group Query-Attention】大模型训练必备方法——bonus(位置编码讲解)
Transformer与Mamba被颠覆!斯坦福推出“TTT新架构”,强烈建议每一位入门深度学习的大模型初学者连夜阅读并复现!
斯坦福最强TTT层来袭!超越Transformer和Mamba,古希腊处理超长序列的神!
【汇报】 Mamba模型及其公式推导
人在旅途,录取通知书到家了!
AI大讲堂:敢叫transformer换新天!专业拆解【Mamba-2模型】
【研1基本功 (真的很简单)Test-Time Training (TTT) part3】实现TTTLinear 结束啦!撒花!!
【研1基本功 (真的很简单)MoE】混合专家模型—作业:写一个MoELoRA
【猫meme】如何在2024年把线性代数做到CCF-A/SCI一区,本科生超快速入门深度学习方向,1个epoch训练完持续学习任务
【研1基本功MultiGPU】多卡并行训练(以手写数字体识别为例)
[CVPR 2022] Sketch3T: Test-Time Training for Zero-Shot SBIR
【KAN网络】非线性空间美学的崛起,傅里叶级数转世泰勒展开重生
AI大讲堂:老将出马一个顶俩,专业拆解打败Transformer和Mamba的【xLSTM模型】