[pytorch] 深入理解 nn.KLDivLoss（kl 散度）与 nn.CrossEntropyLoss（交叉熵） - 视频下载 Video Downloader

[pytorch] 深入理解 nn.KLDivLoss（kl 散度）与 nn.CrossEntropyLoss（交叉熵）

发布人

本期 code：https://github.com/chunhuizhang/bilibili_vlogs/blob/master/learn_torch/loss/02_kl_divergence_cross_entropy.ipynb
参考 pytorch kl loss：https://pytorch.org/docs/stable/generated/torch.nn.KLDivLoss.html
参考 pytorch cross entropy loss：https://pytorch.org/docs/stable/generated/torch.nn.CrossEntropyLoss.html

打开封面下载高清视频观看高清视频视频下载器

一句“7万亿美金能买多少GPU？”给黄仁勋问懵了！

真的超容易“搞深度学习神经网络到底怎么改代码的啊？”复旦博士教我用一本书搞定！

[pytorch 网络模型结构] 深入理解 nn.BatchNorm1d/2d 计算过程

[损失函数设计] 为什么多分类问题损失函数用交叉熵损失，而不是 MSE

[动手写 Transformer] 手动实现 Transformer Decoder（交叉注意力，encoder-decoder cross attentio）

[pytorch 模型拓扑结构] 深入理解 nn.CrossEntropyLoss 计算过程（nn.NLLLoss(nn.LogSoftmax))

[概率 & 统计] KL 散度（KL div）forward vs. reverse

[pytorch 网络拓扑结构] 深度理解 nn.BatchNorm1d

[概率 & 统计] kl div kl散度的计算及应用（pytorch）

ffmpeg开发团队表示手写AVX-512汇编提升94倍性能兄弟们还能手写汇编不？

【手推公式】从二分类（二项分布）到多分类（多项分布），最大似然估计与交叉熵损失的等价

[pytorch distributed] 01 nn.DataParallel 数据并行初步

[pytorch] Tensor 轴（axis）交换，transpose（转置）、swapaxes、permute

[pytorch] torch.einsum 到索引到矩阵运算（index、shape、dimension、axis）

尝试在AI Minecraft中建造房屋

[pytorch模型拓扑结构] nn.MultiheadAttention, init/forward, 及 query，key，value 的计算细节

[leetcode reviews] FSM 有限状态机导论（交通灯，考拉兹猜想 Collatz conjecture）

[pytorch] 多项式分布及采样（torch.multinomial, torch distribution Categorical）

[pytorch] [求导练习] 03 计算图（computation graph）及链式法则（chain rule）反向传播过程

[pytorch optim] 优化器相关 - learning rate scheduler

[pytorch distributed] 04 模型并行（model parallel）on ResNet50

能有多牛被300多万人浏览的我问题”对于神经网络，硕士博士不需要弄明白原理，只需要应用，是这样吗？“

[pytorch] 深入理解 torch.gather 及 dim 与 index 的关系

[全栈深度学习] 02 vscode remote（远程）gpus 服务器开发调试 debugger（以 nanoGPT 为例）

【手推公式】logistic regression 为什么不采用 squared loss作为其损失函数，如何从最大似然估计得到交叉熵损失函数

[pytorch 网络拓扑结构] 深入理解 nn.LayerNorm 的计算过程

【深度学习环境搭建】01 本机、GPU服务器端深度学习环境搭建（代码、数据共享）

[pytorch distributed] 05 张量并行（tensor parallel），分块矩阵的角度，作用在 FFN 以及 Attention 上

沼泽小狗机器狗 Ghost V60

[pytorch optim] 优化器相关 AdaGrad（adaptive gradient）与 RMSprop，自适应梯度

[全栈深度学习] 01 docker 工具的基本使用及 nvidia cuda pytorch 镜像

[pytorch distributed] 03 DDP 初步应用（Trainer，torchrun）

[pytorch] nn.Embedding 前向查表索引过程与 one hot 关系及 max_norm 的作用

[动手写bert系列] 01 huggingface tokenizer （vocab，encode，decode）原理及细节

[pytorch distributed] 张量并行与 megtron-lm 及 accelerate 配置

[pytorch optim] pytorch 作为一个通用优化问题求解器（目标函数、决策变量）

最短路径迪杰斯特拉 dijkstra算法数据结构与算法

[pytorch 模型拓扑结构] 深入理解 nn.BatchNorm2d/3d

[pytorch] [求导练习] 06 计算图（computation graph）细节之 retain graph（multi output/backwar）

神经网络：逼近的力量