V
主页
[LLM 番外] 自回归语言模型cross entropy loss,及 PPL 评估
发布人
本期 code:https://github.com/chunhuizhang/bert_t5_gpt/blob/main/tutorials/ar_lm_loss_PPL-perplexity.ipynb cross entropy loss:https://www.bilibili.com/video/BV1AN41177Jo/ MLE vs. cross entropy:https://www.bilibili.com/video/BV19k4y1M7cJ/
打开封面
下载高清视频
观看高清视频
视频下载器
[数学!数学] 最大似然估计(MLE)与最小化交叉熵损失(cross entropy loss)的等价性
[动手写 Transformer] 手动实现 Transformer Decoder(交叉注意力,encoder-decoder cross attentio)
【手推公式】从二分类到多分类,从sigmoid到softmax,从最大似然估计到 cross entropy
[gpt2 番外] training vs. inference(generate),PPL 计算,交叉熵损失与 ignore_index
[GPT 番外] tied/share tensors wte与lm_head(GPT2LMHeadModel)
[番外] float16 与 bf16 表示和计算细节
[pytorch] F.binary_cross_entropy(二分类) 与 F.cross_entropy(多分类)
[LLMs 实践] 02 LoRA(Low Rank Adaption)基本原理与基本概念,fine-tune 大语言模型
[pytorch 模型拓扑结构] 深入理解 nn.CrossEntropyLoss 计算过程(nn.NLLLoss(nn.LogSoftmax))
[BERT 番外] Sin Position Encoding 的简洁实现(RoPE 基础)
【手推公式】xgboost自定义损失函数(cross entropy/squared log loss)及其一阶导数gradient二阶导数hessian
[LLMs 实践] 09 BPE gpt2 tokenizer 与 train tokenizer
[LLMs 实践] 03 LoRA fine-tune 大语言模型(peft、bloom 7b)
[性能测试] 04 双4090 BERT、GPT性能测试(megatron-lm、apex、deepspeed)
[bert、t5、gpt] 06 GPT2 整体介绍(tokenizer,model forward)
[bert、t5、gpt] 08 GPT2 sampling (top-k,top-p (nucleus sampling))
[pytorch 模型拓扑结构] 深入理解 nn.BCELoss 计算过程及 backward 及其与 CrossEntropyLoss 的区别与联系
【手推公式】可导损失函数(loss function)的梯度下降(GD)、随机梯度下降(SGD)以及mini-batch gd梯度优化策略
[pytorch 强化学习] 10 从 Q Learning 到 DQN(experience replay 与 huber loss / smooth L1)
[pytorch] [求导练习] 04 前向计算与反向传播与梯度更新(forward,loss.backward(), optimizer.step)
[pytorch optim] pytorch 作为一个通用优化问题求解器(目标函数、决策变量)
[pytorch distributed] 张量并行与 megtron-lm 及 accelerate 配置
【Python番外】Python排序(TimSort,list.sort/sorted)与搜索(bisect_left/bisect_right/insort)
[bert、t5、gpt] 07 GPT2 decoding (greedy search, beam search)
[动手写神经网络] 02 逐行写代码 CNN pipeline 图像分类(模型结构、训练、评估)
[pytorch 番外] Tensorboard 与计算图初步(算子与 ATen)
[LLMs 实践] 10 预训练语料,mapping & streaming(load_dataset)
[pytorch] 深入理解 nn.KLDivLoss(kl 散度) 与 nn.CrossEntropyLoss(交叉熵)
[lora 番外] LoRA merge 与 SVD(矩阵奇异值分解)
[Python 机器学习] 深入理解 numpy(ndarray)的 axis(轴/维度)
[动手写bert系列] 01 huggingface tokenizer (vocab,encode,decode)原理及细节
[LLM+RL] 合成数据与model collapse,nature 正刊封面
【手推公式】logistic regression 为什么不采用 squared loss作为其损失函数,如何从最大似然估计得到交叉熵损失函数
[数据可视化] 绘制交互式 3d plot(interactive 3d plot, Axes3d) z=f(x, y) (三维空间中的 surface)
[LLMs 实践] 20 llama2 源码分析 cache KV(keys、values cache)加速推理
[python 多进程、多线程以及协程] 01 关于进程(multiprocessing,pid、ppid)
【机器学习】【手推公式】从Hinge loss(合页损失)到 SVM(hard margin/soft margin)
[LLMs 实践] 07 fp16 与自动混合精度训练(amp)显著提升 batch size
[pytorch 网络拓扑结构] 深入理解 nn.LayerNorm 的计算过程
[pytorch] Tensor 轴(axis)交换,transpose(转置)、swapaxes、permute