V
主页
【手推公式】odds(几率)与对数几率(logodds)在logistics regression及xgboost classification中的应用
发布人
最后的二阶导数的推导: e^x/(1+e^x) ==> (e^x(1+e^x)-e^x)/(1+e^x)^2 ==> e^x/(1+e^x) * 1/(1+e^x)
打开封面
下载高清视频
观看高清视频
视频下载器
【手推公式】logistic regression 及其与 linear regression 的区别,对数线性与对数几率
【手推公式】从 logodds 到 sigmoid 概率化输出,用于 LR、XGBoost 的分类任务
[手推公式] sigmoid 及其导数 softmax 及其导数性质(从 logits 到 probabilities)
【手推公式】指数族分布(exponential family distribution),伯努利分布及高斯分布的推导
【手推公式】xgboost自定义损失函数(cross entropy/squared log loss)及其一阶导数gradient二阶导数hessian
【手推公式】从二分类(二项分布)到多分类(多项分布),最大似然估计与交叉熵损失的等价
【手推公式】【目标检测】【Fast RCNN】RoIPooling 的作用及计算
[bert、t5、gpt] 11 知识蒸馏(knowledge distill)huggingface trainer pipeline
【机器学习】【手推公式】从Hinge loss(合页损失)到 SVM(hard margin/soft margin)
【数据处理】数据变换的三种形式,(几率)对数线性(log linear)、线性对数(linear log)、双对数log-log
[程序员说金融] 对数回报率(收益率)及其性质(可加性,负对称性,及泰勒展开下的近似相等)
【python 运筹优化】scipy.optimize.minimize 使用
【矩阵分析】斐波那契数列(Fibonacci)通项公式的(矩阵矢量)推导
[概率统计] 将对数几率(logodds)引入到贝叶斯公式(bayes),后验对数几率=先验对数几率+似然对数几率
【矩阵计算】从 im2col 到 GEMM,矩阵与核的卷积到矩阵乘法
【统计学】p-value(p值) 与 z-score(标准分/z得分/z分数)定义,计算以及适用场景
【运筹】【整数规划】outer approximation 求解 MINLP及示例
[pytorch 网络拓扑结构] 深入理解 nn.LayerNorm 的计算过程
[pytorch optim] 优化器相关 - learning rate scheduler
【矩阵分析】矩阵奇异值与谱范数(spectral norm),F范数(Frobenius norm),核范数(nuclear norm)
[强化学习基础 02] MDP价值迭代算法(value iteration,V(s), Q(s,a), pi(s))
[QKV attention] flash attention(Tiling与重计算),operation fused,HBM vs. SRAM
[动手写bert系列] 01 huggingface tokenizer (vocab,encode,decode)原理及细节
[personal chatgpt] Llama2 7B vs. Llama3 8B (词表、attention 及 mlp)
[animation & rendering] matplotlib funcanimation 多重动画绘制(multiple lines plot)
[动手写 bert 系列] 02 tokenizer encode_plus, token_type_ids(mlm,nsp)
[pytorch distributed] 03 DDP 初步应用(Trainer,torchrun)
[LLMs tuning] 01 trl SFTTrainer 中的 formatting_func 与 DataCollatorForCompletion
[概率 & 统计] kl div kl散度的计算及应用(pytorch)
[[bert、t5、gpt] 02 transformer 架构 scaled dot product self attention(qkv)
【计算机视觉】从图像距离(图像相似性)的计算(ahash/dhash/phash/whash)到以图搜索的实现(deep ranking)(一)
[RLHF] 从 PPO rlhf 到 DPO,公式推导与原理分析
[python 全栈] python 装饰器(decorator)及 functools.cache
【手推公式】可导损失函数(loss function)的梯度下降(GD)、随机梯度下降(SGD)以及mini-batch gd梯度优化策略
[pytorch optim] 优化器相关 AdaGrad(adaptive gradient) 与 RMSprop,自适应梯度
[[bert、t5、gpt] 03 AttentionHead 与 MultiHeadAttention
【python 运筹优化】scipy.optimize.minimize 接口介绍(method、jacobian、hessian)| 有约束非线性优化
[sbert 01] sentence-transformers pipeline
[bert、t5、gpt] 06 GPT2 整体介绍(tokenizer,model forward)
[pytorch 模型拓扑结构] 深入理解 nn.BCELoss 计算过程及 backward 及其与 CrossEntropyLoss 的区别与联系