V
主页
为什么attention计算要除根号d
发布人
文字版:https://fabulous-fuchsia-dd4.notion.site/attention-d-d27475d7c574415982a4c98918eedbce
打开封面
下载高清视频
观看高清视频
视频下载器
LLM面试_为什么常用Decoder Only结构
Flash Attention 为什么那么快?原理讲解
LLM面试_模型参数量计算
第二十课:MoE
LLM面试_padding side
OpenAI科学家Ilya:简单方法检测AI是否存在意识?!
面试官:如何解决大模型的badcase?
从编解码和词嵌入开始,一步一步理解Transformer,注意力机制(Attention)的本质是卷积神经网络(CNN)
大模型技术栈全览
ChatGPT提问教程(附合集)
大语言模型LLM第三集:RLHF
第十五课:LLaMA
结构化 prompt 写作方法
作者亲自讲解:LoRA 是什么?
【公式推导】朗之万动力学公式(Langevin Dynamics)就是梯度下降!!为什么数据生成会是梯度下降的形式?【基于分数的生成模型】
transformer中位置编码的理解
【李沐】因为过拟合刷题,我最后只能去MIT和CMU这种学校
通俗易懂-大模型的关键技术之一:旋转位置编码rope (2)
KAN+Transformer,实验指标获得巨大提升!结合论文与项目详细讲解如何进行融合
ChatGPT系列在业务上的应用思考和实操_part2
5 个有用的 Python 装饰器
llama.cpp 源码解析-- CUDA版本流程与逐算子详解
OpenAI科学家Ilya:统计规律远比看起来的重要!
奇葩问题把李沐大神整不会了
7.12 金融大语言模型:FinBERT、 Bloomberg GPT、FinLLaMA
ChatGPT系列在业务上的应用思考和实操_part1
人工智能学术会议ICLR大瓜!审稿分数第一的论文被Chair拒掉!富二代向佐做科研稳拿!
不要 all in 算法岗
19、Transformer模型Encoder原理精讲及其PyTorch逐行实现
DeepSpeed和Megatron如何调用NCCL源码解读,通信后端初始化init_distributed()
[personal chatgpt] 从 RoPE 到 CoPE(绝对位置编码,相对位置编码,Contextual Position Encoding)
[中英字幕] KAN 论文一作 刘子鸣 亲自讲解 Kolmogorov-Arnold Networks
又可以白嫖了 Hugging Face推出免费GPU服务ZeroGPU,可以免费使用多个40G的A100
十分钟搞明白Adam和AdamW,SGD,Momentum,RMSProp,Adam,AdamW
从零开始学习大语言模型(一)
cot和openai o1
当我们谈论“Agent”,我们在说些什么?
00程序员写的架构师简历把我快吓到了。
手搓深度学习的代码?60分钟足够了!
姚顺雨-语言智能体博士答辩 Language Agents: From Next-Token Prediction to Digital Automation