V
主页
【研1基本功 (真的很简单)Test-Time Training (TTT) part2】实现TTTBase 超越Transformer 真的假的?
发布人
先看文档哈 https://dwexzknzsh8.feishu.cn/docx/VkYud3H0zoDTrrxNX5lce0S4nDh?from=from_copylink
打开封面
下载高清视频
观看高清视频
视频下载器
【研1基本功 (真的很简单)Test-Time Training (TTT) part1】超越Transformer | Mamba 真的假的?
介绍Transfomer有力竞争者:Mamba-1,Mamba-2,TTT模型
Transformer与Mamba被颠覆!斯坦福推出“TTT新架构”,强烈建议每一位入门深度学习的大模型初学者连夜阅读并复现!
【研1基本功 (真的很简单)Group Query-Attention】大模型训练必备方法——bonus(位置编码讲解)
【研1基本功 (真的很简单)Diffusion Vision Transformer (DiT)】构建DiT核心代码
斯坦福推出“TTT新架构”!超越Transformer与Mamba,让模型{学会学习}!
【研1基本功 (真的很简单)Decoder Encoder】手写Decoder Layer 准备召唤Transformer
【研1基本功 (真的很简单)Encoder Embedding】手写编码模块、构建Encoder Layer
【研1基本功 (真的很简单)Diffusion Model】完成扩散模型!!结尾有bonus!!
强到离谱!全新大模型最强架构TTT问世!有望替代Transformer?彻底改变语言模型,性能比Mamba更好!
【研1基本功 (真的很简单)Test-Time Training (TTT) part3】实现TTTLinear 结束啦!撒花!!
【研1.5基本功 (真的很简单)DeepSpeed & Accelerate】学点大模型基建准没错
从transformer到cnn到vit,两个半小时板书搞懂原理(上)
Mamba从数学推导到代码的一条龙?看一遍就够了!
【研1基本功 (真的很简单)召唤Transformer】手写“变压器”or“变形金刚”
【研1基本功 (真的很简单)Diffusion Model】构建预测噪声网络
【研1基本功 (真的很简单)LoRA 低秩微调】大模型微调基本方法1 —— bonus "Focal loss"
TTT(test-time-training)新模型架构来啦,超越Transformer和Mamba架构了吗?家人们,你们怎么看?
【研1基本功 (真的很简单)注意力机制】手写多头注意力机制
彻底改变语言模型:全新架构TTT超越Transformer,ML模型代替RNN隐藏状态!——人工智能|机器学习|深度学习
【研1基本功 (真的很简单)MoE】混合专家模型—作业:写一个MoELoRA
人在旅途,录取通知书到家了!
【研1基本功MultiGPU】多卡并行训练(以手写数字体识别为例)
什么!斯坦福和伯克利发布的最新大模型-TTT,竟然把老牌选手Transformer和Manba都给超超越了!
AI大讲堂:老将出马一个顶俩,专业拆解打败Transformer和Mamba的【xLSTM模型】
【强化学习入门(研1基本功)】GOPS 开源强化学习框架
[CVPR 2022] Sketch3T: Test-Time Training for Zero-Shot SBIR
llm面试-langchain
减论:5分钟极减阅读CVPR24 best paper《Generative Image Dynamics》
【Pycharm Pro】pycharm访问远程服务器(研0基本功)
论文抄github算不算抄袭?
【猫meme】如何在2024年把线性代数做到CCF-A/SCI一区,本科生超快速入门深度学习方向,1个epoch训练完持续学习任务
【减论系列专栏】从分布到生成(一):什么是图像的分布?本集我们通过与最简单的伯努利分布的类比,尝试回答如下问题:当我们在说图像分布的时候,我们在说什么?
【928】上岸清华 — 以梦为马,不负韶华
MMLab入组必学的软件
ChatGPT with coding/Cursor/大四实习/轻舟智航
大二48天一个人从0到1完成的前后端个人博客全栈项目的前台页面展示
3分钟极减阅读Arxiv(20240711)
【补档】炸裂!科研女寨主称:阳痿是检验科研水平的黄金标准!何副教授立刻开练葵花宝典【来自星星的何教授】
哥们中了一篇ECCV2024——系统性地向自动驾驶体系引入几何表征,多快好省!