V
主页
[pytorch] 深入理解 nn.KLDivLoss(kl 散度) 与 nn.CrossEntropyLoss(交叉熵)
发布人
本期 code:https://github.com/chunhuizhang/bilibili_vlogs/blob/master/learn_torch/loss/02_kl_divergence_cross_entropy.ipynb 参考 pytorch kl loss:https://pytorch.org/docs/stable/generated/torch.nn.KLDivLoss.html 参考 pytorch cross entropy loss:https://pytorch.org/docs/stable/generated/torch.nn.CrossEntropyLoss.html
打开封面
下载高清视频
观看高清视频
视频下载器
一句“7万亿美金能买多少GPU?”给黄仁勋问懵了!
真的超容易“搞深度学习神经网络到底怎么改代码的啊?”复旦博士教我用一本书搞定!
[pytorch 网络模型结构] 深入理解 nn.BatchNorm1d/2d 计算过程
[损失函数设计] 为什么多分类问题损失函数用交叉熵损失,而不是 MSE
[动手写 Transformer] 手动实现 Transformer Decoder(交叉注意力,encoder-decoder cross attentio)
[pytorch 模型拓扑结构] 深入理解 nn.CrossEntropyLoss 计算过程(nn.NLLLoss(nn.LogSoftmax))
[概率 & 统计] KL 散度(KL div)forward vs. reverse
[pytorch 网络拓扑结构] 深度理解 nn.BatchNorm1d
[概率 & 统计] kl div kl散度的计算及应用(pytorch)
ffmpeg开发团队表示 手写AVX-512汇编提升94倍性能 兄弟们还能手写汇编不?
【手推公式】从二分类(二项分布)到多分类(多项分布),最大似然估计与交叉熵损失的等价
[pytorch distributed] 01 nn.DataParallel 数据并行初步
[pytorch] Tensor 轴(axis)交换,transpose(转置)、swapaxes、permute
[pytorch] torch.einsum 到索引到矩阵运算(index、shape、dimension、axis)
尝试在AI Minecraft中建造房屋
[pytorch模型拓扑结构] nn.MultiheadAttention, init/forward, 及 query,key,value 的计算细节
[leetcode reviews] FSM 有限状态机导论(交通灯,考拉兹猜想 Collatz conjecture)
[pytorch] 多项式分布及采样(torch.multinomial, torch distribution Categorical)
[pytorch] [求导练习] 03 计算图(computation graph)及链式法则(chain rule)反向传播过程
[pytorch optim] 优化器相关 - learning rate scheduler
[pytorch distributed] 04 模型并行(model parallel)on ResNet50
能有多牛被300多万人浏览的我问题”对于神经网络,硕士博士不需要弄明白原理,只需要应用,是这样吗?“
[pytorch] 深入理解 torch.gather 及 dim 与 index 的关系
[全栈深度学习] 02 vscode remote(远程)gpus 服务器开发调试 debugger(以 nanoGPT 为例)
【手推公式】logistic regression 为什么不采用 squared loss作为其损失函数,如何从最大似然估计得到交叉熵损失函数
[pytorch 网络拓扑结构] 深入理解 nn.LayerNorm 的计算过程
【深度学习环境搭建】01 本机、GPU服务器端深度学习环境搭建(代码、数据共享)
[pytorch distributed] 05 张量并行(tensor parallel),分块矩阵的角度,作用在 FFN 以及 Attention 上
沼泽小狗 机器狗 Ghost V60
[pytorch optim] 优化器相关 AdaGrad(adaptive gradient) 与 RMSprop,自适应梯度
[全栈深度学习] 01 docker 工具的基本使用及 nvidia cuda pytorch 镜像
[pytorch distributed] 03 DDP 初步应用(Trainer,torchrun)
[pytorch] nn.Embedding 前向查表索引过程与 one hot 关系及 max_norm 的作用
[动手写bert系列] 01 huggingface tokenizer (vocab,encode,decode)原理及细节
[pytorch distributed] 张量并行与 megtron-lm 及 accelerate 配置
[pytorch optim] pytorch 作为一个通用优化问题求解器(目标函数、决策变量)
最短路径 迪杰斯特拉 dijkstra算法 数据结构与算法
[pytorch 模型拓扑结构] 深入理解 nn.BatchNorm2d/3d
[pytorch] [求导练习] 06 计算图(computation graph)细节之 retain graph(multi output/backwar)
神经网络:逼近的力量