V
主页
手撕代码#1|为了128K context的attention map我真的是手撕到不行
发布人
这篇视频主要简单介绍了如何通过手写head by head的attention计算方式,在4卡a100上半精度运行llama3.1-8B输出128k context的attention map. modeling file: https://github.com/huggingface/transformers/blob/v4.44.2/src/transformers/models/llama/modeling_llama.py 关于CUDA使用torch.triu()的潜在bug: https://github.com/pytorch/pytorch/issues/136611 主讲: @网十元
打开封面
下载高清视频
观看高清视频
视频下载器
【全374集】2024最新清华内部版!终于把AI大模型(LLM)讲清楚了!全程干货讲解,通俗易懂,拿走不谢!
目前,最满意的本地知识库 Copilot【总第 128 期】
时间序列预测 | Autoformer 简介
太惊人了!AI已经能生成任何视频了😱
【Agent+RAG】10小时博士精讲AI Agent(人工智能体)系列—提示工程、文本大模型、GPT...
瞎聊点位置编码|旋转位置编码RoPE简介
2024吃透AI大模型(LLM+RAG系统+GPT-4o+OpenAI)通俗易懂,学完即就业!拿走不谢,学不会我退出IT圈!!!
【ChatGPT4.0手机版】国内无需魔法,无限次数使用教程来了!
Peft: 从Adaptor, Prefix Tuning, 到LoRA
2025版AI大模型全套视频 (LLM+RAG系统+GPT-4o+OpenAI)这绝对是ai大模型教程天花板!
LLaMA to Llama2综述
Graph领域的MoE:AnyGraph
我就说AI取代不了人类吧
AI4Science串讲: 从GNN+LLM到ReLM
自从学会抄,一年轻松发6篇SCI!B站公认最好的【SCI论文写作教程】基本套路+实操演示,包含所有干货内容!-论文/SCI论文/毕业论文
这也太全了!目前为止我在B站看到过最完整最系统的【时间序列预测模型】教程!(LSTM/Informer/ARIMA/Pandas/Transformer)
CVPR最佳论文候选!基于Diffusion的单目视觉估计方法
基于大模型的复杂问题规划:树搜索(Tree Search)视角
3D重建——从Multi View到3D重建
真的超容易“搞深度学习神经网络到底怎么改代码的啊?”复旦博士教我用一本书搞定!
CoT不行?Long Context LLM的Hyper-Multi-Step
Claude 秒变 GPT o1?爆火的“神级”提示词,真的那么神吗? 实测对比 | 回到Axton
【全126集】目前B站最系统的Transformer教程!入门到进阶,全程干货讲解!拿走不谢!(神经网络/NLP/注意力机制/大模型/GPT/RNN)
五大模型技巧,稳稳拿捏弹簧突变问题!满分诀窍,无脑全部搞定!【高考物理晴姐】
bitnet.cpp 推理,速度超越 llama.cpp,内存最高降低 16 倍 | 附 BitNet b1.58 模型安装演示
尤瓦尔·赫拉利对谈张静初:AI正在制造慢不下来的人
GPT4o免费使用超详细教程,零门槛打开即用
当万物都需要辨别真假,AI带来的还是便利吗?!
TimeCMA:通过跨模态对齐实现LLM驱动的时间序列预测
【你知道吗?】Cursor如何索引你的代码库文件?
文言文看不懂?一口气学完高中120个文言文实词!丨国家玮-高中语文
DPO:人类偏好对齐技术——大模型训练的最后一公里
【包学包会】不需要高配置!6分钟教会你使用Ollama在本机运行部署llama3.1 || 大模型本地部署、LLM、
停止盲目背单词🤚做好这4件小事 每天提升英语
眼观六路 手感八方,机器手识别万物,登Science子刊封面
男生禁看❌男生必看✅
从零开始,教你手搓一个精简版LLM,把参数缩减到足够单卡训练的NanoGPT,纯小白教学!
【zotero插件】Awesome GPT 更高效读文献,做科研
语文书没有一句话是多余的!写进作文句句封神【作文纸条】
(超爽中英!) 2024公认最全的【吴恩达大模型LLM】系列教程!附代码_LangChain_微调ChatGPT提示词_RAG模型应用_agent_生成式AI