[gpt2 番外] training vs. inference（generate），PPL 计算，交叉熵损失与 ignore_index - 视频下载 Video Downloader

[gpt2 番外] training vs. inference（generate），PPL 计算，交叉熵损失与 ignore_index

发布人

本期 code：https://github.com/chunhuizhang/bert_t5_gpt/blob/main/tutorials/gpt2_training_inference_ppl.ipynb
PPL 原理及计算：BV1ZA4m1w7D5
CrossEntropyLoss 原理及计算：BV1NY4y1E76o
注意力区别与联系：https://www.bilibili.com/opus/941806587706605575?spm_id_from=333.999.0.0
注意力拓扑结构：https://www.bilibili.com/opus/942536178060492803?spm_id_from=333.999.0.0

打开封面下载高清视频观看高清视频视频下载器

[动手写 Transformer] 手动实现 Transformer Decoder（交叉注意力，encoder-decoder cross attentio）

[数学！数学] 最大似然估计（MLE）与最小化交叉熵损失（cross entropy loss）的等价性

[LLM 番外] 自回归语言模型cross entropy loss，及 PPL 评估

【手推公式】从二分类（二项分布）到多分类（多项分布），最大似然估计与交叉熵损失的等价

[AI Agent] llama_index RAG 原理及源码分析

[QKV attention] flash attention（Tiling与重计算），operation fused，HBM vs. SRAM

[GPT 番外] tied/share tensors wte与lm_head（GPT2LMHeadModel）

[pytorch] torch.einsum 到索引到矩阵运算（index、shape、dimension、axis）

[损失函数设计] 为什么多分类问题损失函数用交叉熵损失，而不是 MSE

[LLMs inference] quantization 量化整体介绍（bitsandbytes、GPTQ、GGUF、AWQ）

[pytorch] 深入理解 nn.KLDivLoss（kl 散度）与 nn.CrossEntropyLoss（交叉熵）

[LLMs 实践] 221 llama2 源码分析 generate 的完整过程

[LLMs 实践] 09 BPE gpt2 tokenizer 与 train tokenizer

[LLMs 实践] 12 LLM SFT training （trl SFTTrainer、alpaca dataset）

[bert、t5、gpt] 08 GPT2 sampling （top-k，top-p （nucleus sampling））

[bert、t5、gpt] 06 GPT2 整体介绍（tokenizer，model forward）

[BERT 番外] Sin Position Encoding 的简洁实现（RoPE 基础）

[动手写bert系列] 01 huggingface tokenizer （vocab，encode，decode）原理及细节

[AI 核心概念及计算] 概率计算 01 pytorch 最大似然估计（MLE）伯努利分布的参数

【数值计算】牛顿迭代法（Newton's method，Newton-Raphson method，牛顿-拉夫逊（拉弗森））计算二次方根（sqrt）三次方根

[pytorch 模型拓扑结构] 深入理解 nn.CrossEntropyLoss 计算过程（nn.NLLLoss(nn.LogSoftmax))

[pytorch] [求导练习] 05 计算图（computation graph）构建细节之 inplace operation（data与detach）

[lora 番外] LoRA merge 与 SVD（矩阵奇异值分解）

[pytorch 番外] Tensorboard 与计算图初步（算子与 ATen）

【统计学】p-value（p值）与 z-score（标准分/z得分/z分数）定义，计算以及适用场景

【手推公式】logistic regression 为什么不采用 squared loss作为其损失函数，如何从最大似然估计得到交叉熵损失函数

[pytorch] 深入理解 torch.gather 及 dim 与 index 的关系

[LLMs 实践] 13 gradient checkpointing 显存优化 trick

[bert、t5、gpt] 07 GPT2 decoding （greedy search, beam search）

【白板编程】map-reduce 倒排索引（inverted index）

【约束满足问题】AIMA | Chap 6 | CSP | AC-3 | Arc Consistency

[pytorch] [求导练习] 03 计算图（computation graph）及链式法则（chain rule）反向传播过程

[pytorch] torch.nn.Bilinear 计算过程与 einsum（爱因斯坦求和约定）

[pytorch 网络拓扑结构] 深入理解 nn.LayerNorm 的计算过程

[概率 & 统计] kl div kl散度的计算及应用（pytorch）

[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader（mnist、fashionmnist、cifar10）

[sbert 02] sbert 前向及损失函数pooling method计算细节

【计算机视觉】从图像距离（图像相似性）的计算（ahash/dhash/phash/whash）到以图搜索的实现（deep ranking）（一）

[动手写Bert系列] bertencoder self attention 计算细节及计算过程

[pytorch 网络模型结构] 深入理解 nn.BatchNorm1d/2d 计算过程