V
主页
京东 11.11 红包
完成业绩才能回国,完成多少业绩?五百万,我帮你完成
发布人
-
打开封面
下载高清视频
观看高清视频
视频下载器
14 Transformer之位置编码Positional Encoding (为什么 Self-Attention 需要位置编码)
通俗易懂-大模型的关键技术之一:旋转位置编码rope (1)
LLM面试_为什么常用Decoder Only结构
RoPE旋转位置编码原理解读
通俗易懂-大模型的关键技术之一:旋转位置编码rope (2)
解密旋转位置编码:数学基础、代码实现与绝对编码一体化探索
transformer中位置编码的理解
通俗易懂-大模型的关键技术之一:旋转位置编码rope (3)
75、Llama源码讲解之RoPE旋转位置编码
瞎聊点位置编码|旋转位置编码RoPE简介
[personal chatgpt] 从 RoPE 到 CoPE(绝对位置编码,相对位置编码,Contextual Position Encoding)
大模型修炼之道(二): GPT系列GPT1,GPT2,GPT3,GPT4
大模型面试之位置编码-大语言模型中常用的旋转位置编码RoPE详解-卢菁博士授课-利用位置编码实现长度外推-如何利用位置编码实现长度外推
模型量化六:QLoRA 4bit 量化 NormalFloat4 量化
【bd5m】小任务r夹
怎么加快大模型推理?10分钟学懂VLLM内部原理,KV Cache,PageAttention
大模型修炼之道(三): Llama系列讲解 Llama1,Llama2, Llama3
Flash Attention 为什么那么快?原理讲解
AI 工程师都应该知道的GPU工作原理,TensorCore
transformer计算位置编码的过程示例
19、Transformer模型Encoder原理精讲及其PyTorch逐行实现
你真的理解交叉熵损失函数了吗?
十分钟搞明白Adam和AdamW,SGD,Momentum,RMSProp,Adam,AdamW
DPO (Direct Preference Optimization) 算法讲解
Batch Normalization(批归一化)和 Layer Normalization(层归一化)的一些细节可能和你想的并不一样
用梯度检查点来节省显存 gradient checkpointing
从编解码和词嵌入开始,一步一步理解Transformer,注意力机制(Attention)的本质是卷积神经网络(CNN)
模型量化一:量化基础 对称量化 非对称量化 极大值量化 零点量化
你知道用什么指标评价一个大模型的好坏吗?PPL,MMLU,MATH,GPQA,BBH,IF-EVAL,MMLU-PRO
大模型微调看这个视频就够了 SFT NEFTune
大模型修炼之道(一): Transformer Attention is all you need
动画理解Pytorch 大模型分布式训练技术 DP,DDP,DeepSpeed ZeRO技术
10分钟搞明白如何设置大模型推理参数,top_k,top_p, temperature, num_beams。温度,beam search。
大模型训练如何计算显存占用
大模型量化一网打尽(一)理论基础
零基础学习强化学习算法:ppo
通过看DeepSeek-v2思考目前大模型学习路径
一次学懂混合精度训练 AMP Automatic Mixed Precision
Pytorch里的register_parameter和register_buffer是干什么的?
三分钟学会大模型PEFT的LORA算法 lora_rank, lora_alpha