手撕代码#1｜为了128K context的attention map我真的是手撕到不行 - 视频下载 Video Downloader

手撕代码#1｜为了128K context的attention map我真的是手撕到不行

发布人

这篇视频主要简单介绍了如何通过手写head by head的attention计算方式，在4卡a100上半精度运行llama3.1-8B输出128k context的attention map.
modeling file: https://github.com/huggingface/transformers/blob/v4.44.2/src/transformers/models/llama/modeling_llama.py
关于CUDA使用torch.triu()的潜在bug: https://github.com/pytorch/pytorch/issues/136611
主讲: @网十元

打开封面下载高清视频观看高清视频视频下载器

【全374集】2024最新清华内部版！终于把AI大模型（LLM）讲清楚了！全程干货讲解，通俗易懂，拿走不谢！

目前，最满意的本地知识库 Copilot【总第 128 期】

时间序列预测 | Autoformer 简介

太惊人了！AI已经能生成任何视频了😱

【Agent+RAG】10小时博士精讲AI Agent(人工智能体)系列—提示工程、文本大模型、GPT...

瞎聊点位置编码｜旋转位置编码RoPE简介

2024吃透AI大模型（LLM+RAG系统+GPT-4o+OpenAI）通俗易懂，学完即就业!拿走不谢，学不会我退出IT圈！！！

【ChatGPT4.0手机版】国内无需魔法，无限次数使用教程来了！

Peft: 从Adaptor, Prefix Tuning, 到LoRA

2025版AI大模型全套视频 (LLM+RAG系统+GPT-4o+OpenAI）这绝对是ai大模型教程天花板！

LLaMA to Llama2综述

Graph领域的MoE：AnyGraph

我就说AI取代不了人类吧

AI4Science串讲: 从GNN+LLM到ReLM

自从学会抄，一年轻松发6篇SCI！B站公认最好的【SCI论文写作教程】基本套路+实操演示，包含所有干货内容！-论文/SCI论文/毕业论文

这也太全了！目前为止我在B站看到过最完整最系统的【时间序列预测模型】教程！（LSTM/Informer/ARIMA/Pandas/Transformer）

CVPR最佳论文候选！基于Diffusion的单目视觉估计方法

基于大模型的复杂问题规划：树搜索(Tree Search)视角

3D重建——从Multi View到3D重建

真的超容易“搞深度学习神经网络到底怎么改代码的啊？”复旦博士教我用一本书搞定！

CoT不行？Long Context LLM的Hyper-Multi-Step

Claude 秒变 GPT o1？爆火的“神级”提示词，真的那么神吗？实测对比｜回到Axton

【全126集】目前B站最系统的Transformer教程！入门到进阶，全程干货讲解！拿走不谢！（神经网络/NLP/注意力机制/大模型/GPT/RNN）

五大模型技巧，稳稳拿捏弹簧突变问题！满分诀窍，无脑全部搞定！【高考物理晴姐】

bitnet.cpp 推理，速度超越 llama.cpp，内存最高降低 16 倍 | 附 BitNet b1.58 模型安装演示

尤瓦尔·赫拉利对谈张静初：AI正在制造慢不下来的人

GPT4o免费使用超详细教程，零门槛打开即用

当万物都需要辨别真假，AI带来的还是便利吗？！

TimeCMA：通过跨模态对齐实现LLM驱动的时间序列预测

【你知道吗？】Cursor如何索引你的代码库文件?

文言文看不懂？一口气学完高中120个文言文实词！丨国家玮-高中语文

DPO:人类偏好对齐技术——大模型训练的最后一公里

【包学包会】不需要高配置！6分钟教会你使用Ollama在本机运行部署llama3.1 || 大模型本地部署、LLM、

停止盲目背单词🤚做好这4件小事每天提升英语

眼观六路手感八方，机器手识别万物，登Science子刊封面

男生禁看❌男生必看✅

从零开始，教你手搓一个精简版LLM，把参数缩减到足够单卡训练的NanoGPT，纯小白教学！

【zotero插件】Awesome GPT 更高效读文献，做科研

语文书没有一句话是多余的！写进作文句句封神【作文纸条】

(超爽中英!) 2024公认最全的【吴恩达大模型LLM】系列教程！附代码_LangChain_微调ChatGPT提示词_RAG模型应用_agent_生成式AI