V
主页
[数学!数学] 最大似然估计(MLE)与最小化交叉熵损失(cross entropy loss)的等价性
发布人
本期 code:https://github.com/chunhuizhang/deeplearning_math/blob/main/tutorials/01_cross_entropy_mle.ipynb
打开封面
下载高清视频
观看高清视频
视频下载器
【手推公式】从二分类(二项分布)到多分类(多项分布),最大似然估计与交叉熵损失的等价
【手推公式】从二分类到多分类,从sigmoid到softmax,从最大似然估计到 cross entropy
[损失函数设计] 为什么多分类问题损失函数用交叉熵损失,而不是 MSE
[LLM 番外] 自回归语言模型cross entropy loss,及 PPL 评估
[动手写 Transformer] 手动实现 Transformer Decoder(交叉注意力,encoder-decoder cross attentio)
【统计学】从置信水平(confidence level,置信区间)、Z值到最小采样数(最小抽样数)
【手推公式】logistic regression 为什么不采用 squared loss作为其损失函数,如何从最大似然估计得到交叉熵损失函数
[AI 核心概念及计算] 概率计算 01 pytorch 最大似然估计(MLE)伯努利分布的参数
【手推公式】xgboost自定义损失函数(cross entropy/squared log loss)及其一阶导数gradient二阶导数hessian
[pytorch] F.binary_cross_entropy(二分类) 与 F.cross_entropy(多分类)
[bert、t5、gpt] 10 知识蒸馏(knowledge distill)初步,模型结构及损失函数设计
[pytorch] [求导练习] 04 前向计算与反向传播与梯度更新(forward,loss.backward(), optimizer.step)
[pytorch] 深入理解 nn.KLDivLoss(kl 散度) 与 nn.CrossEntropyLoss(交叉熵)
[pytorch optim] pytorch 作为一个通用优化问题求解器(目标函数、决策变量)
[python 运筹优化] 系统性介绍 scipy 中的非线性最小二乘(NNLS, curve_fit, least_squares)
[pytorch 强化学习] 10 从 Q Learning 到 DQN(experience replay 与 huber loss / smooth L1)
[pytorch 模型拓扑结构] 深入理解 nn.BCELoss 计算过程及 backward 及其与 CrossEntropyLoss 的区别与联系
[动手写bert系列] 01 huggingface tokenizer (vocab,encode,decode)原理及细节
【回归】多元线性回归分析(最小二乘法,矩阵矢量形式,解析解)
【手推公式】可导损失函数(loss function)的梯度下降(GD)、随机梯度下降(SGD)以及mini-batch gd梯度优化策略
[蒙特卡洛方法] 01 从黎曼和式积分(Reimann Sum)到蒙特卡洛估计(monte carlo estimation)求积分求期望
【机器学习】【手推公式】从Hinge loss(合页损失)到 SVM(hard margin/soft margin)
【回归分析】最小二乘法的 python 实现以及 excel 回归分析及其可视化
[gpt2 番外] training vs. inference(generate),PPL 计算,交叉熵损失与 ignore_index
[动手写神经网络] 如何设计卷积核(conv kernel)实现降2采样,以及初探vggnet/resnet 卷积设计思路(不断降空间尺度,升channel)
【基础数学】从干支纪年法到最小公倍数的妙用
[番外] float16 与 bf16 表示和计算细节
[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader(mnist、fashionmnist、cifar10)
[pytorch distributed] 01 nn.DataParallel 数据并行初步
[概率统计] 将对数几率(logodds)引入到贝叶斯公式(bayes),后验对数几率=先验对数几率+似然对数几率
[Python 机器学习] 深入理解 numpy(ndarray)的 axis(轴/维度)
[pytorch 网络拓扑结构] 深入理解 nn.LayerNorm 的计算过程
[全栈深度学习] 02 vscode remote(远程)gpus 服务器开发调试 debugger(以 nanoGPT 为例)
[工具的使用] python jupyter 环境安装配置拓展(nbextension)(ExcecuteTime:执行时间,Table of Content)
[python 多进程、多线程以及协程] 01 关于进程(multiprocessing,pid、ppid)
【python 运筹优化】scipy.optimize.minimize 接口介绍(method、jacobian、hessian)| 有约束非线性优化
[pytorch 强化学习] 11 逐行写代码实现 DQN(ReplayMemory,Transition,DQN as Q function)
【数据处理】数据变换的三种形式,(几率)对数线性(log linear)、线性对数(linear log)、双对数log-log
【python 数学编程】SymPy 数学家的朋友 | hessian | Jacobian
[蒙特卡洛方法] 02 重要性采样(importance sampling)及 python 实现