V
主页
[gpt2 番外] training vs. inference(generate),PPL 计算,交叉熵损失与 ignore_index
发布人
本期 code:https://github.com/chunhuizhang/bert_t5_gpt/blob/main/tutorials/gpt2_training_inference_ppl.ipynb PPL 原理及计算:BV1ZA4m1w7D5 CrossEntropyLoss 原理及计算:BV1NY4y1E76o 注意力区别与联系:https://www.bilibili.com/opus/941806587706605575?spm_id_from=333.999.0.0 注意力拓扑结构:https://www.bilibili.com/opus/942536178060492803?spm_id_from=333.999.0.0
打开封面
下载高清视频
观看高清视频
视频下载器
[动手写 Transformer] 手动实现 Transformer Decoder(交叉注意力,encoder-decoder cross attentio)
[数学!数学] 最大似然估计(MLE)与最小化交叉熵损失(cross entropy loss)的等价性
[LLM 番外] 自回归语言模型cross entropy loss,及 PPL 评估
【手推公式】从二分类(二项分布)到多分类(多项分布),最大似然估计与交叉熵损失的等价
[AI Agent] llama_index RAG 原理及源码分析
[QKV attention] flash attention(Tiling与重计算),operation fused,HBM vs. SRAM
[GPT 番外] tied/share tensors wte与lm_head(GPT2LMHeadModel)
[pytorch] torch.einsum 到索引到矩阵运算(index、shape、dimension、axis)
[损失函数设计] 为什么多分类问题损失函数用交叉熵损失,而不是 MSE
[LLMs inference] quantization 量化整体介绍(bitsandbytes、GPTQ、GGUF、AWQ)
[pytorch] 深入理解 nn.KLDivLoss(kl 散度) 与 nn.CrossEntropyLoss(交叉熵)
[LLMs 实践] 221 llama2 源码分析 generate 的完整过程
[LLMs 实践] 09 BPE gpt2 tokenizer 与 train tokenizer
[LLMs 实践] 12 LLM SFT training (trl SFTTrainer、alpaca dataset)
[bert、t5、gpt] 08 GPT2 sampling (top-k,top-p (nucleus sampling))
[bert、t5、gpt] 06 GPT2 整体介绍(tokenizer,model forward)
[BERT 番外] Sin Position Encoding 的简洁实现(RoPE 基础)
[动手写bert系列] 01 huggingface tokenizer (vocab,encode,decode)原理及细节
[AI 核心概念及计算] 概率计算 01 pytorch 最大似然估计(MLE)伯努利分布的参数
【数值计算】牛顿迭代法(Newton's method,Newton-Raphson method,牛顿-拉夫逊(拉弗森))计算二次方根(sqrt)三次方根
[pytorch 模型拓扑结构] 深入理解 nn.CrossEntropyLoss 计算过程(nn.NLLLoss(nn.LogSoftmax))
[pytorch] [求导练习] 05 计算图(computation graph)构建细节之 inplace operation(data与detach)
[lora 番外] LoRA merge 与 SVD(矩阵奇异值分解)
[pytorch 番外] Tensorboard 与计算图初步(算子与 ATen)
【统计学】p-value(p值) 与 z-score(标准分/z得分/z分数)定义,计算以及适用场景
【手推公式】logistic regression 为什么不采用 squared loss作为其损失函数,如何从最大似然估计得到交叉熵损失函数
[pytorch] 深入理解 torch.gather 及 dim 与 index 的关系
[LLMs 实践] 13 gradient checkpointing 显存优化 trick
[bert、t5、gpt] 07 GPT2 decoding (greedy search, beam search)
【白板编程】map-reduce 倒排索引(inverted index)
【约束满足问题】AIMA | Chap 6 | CSP | AC-3 | Arc Consistency
[pytorch] [求导练习] 03 计算图(computation graph)及链式法则(chain rule)反向传播过程
[pytorch] torch.nn.Bilinear 计算过程与 einsum(爱因斯坦求和约定)
[pytorch 网络拓扑结构] 深入理解 nn.LayerNorm 的计算过程
[概率 & 统计] kl div kl散度的计算及应用(pytorch)
[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader(mnist、fashionmnist、cifar10)
[sbert 02] sbert 前向及损失函数pooling method计算细节
【计算机视觉】从图像距离(图像相似性)的计算(ahash/dhash/phash/whash)到以图搜索的实现(deep ranking)(一)
[动手写Bert系列] bertencoder self attention 计算细节及计算过程
[pytorch 网络模型结构] 深入理解 nn.BatchNorm1d/2d 计算过程