V
主页
[personal chatgpt] instructGPT 中的 reward modeling,概率建模与损失函数性质
发布人
本期 code:https://github.com/chunhuizhang/personal_chatgpt/blob/main/tutorials/reward_model/reward_model_Bradley_Terry_model.ipynb reward model & ppo:BV1zm4y1H79x trl reward model 实践:BV1GZ421t7oU
打开封面
下载高清视频
观看高清视频
视频下载器
[personal chatgpt] 从 RoPE 到 CoPE(绝对位置编码,相对位置编码,Contextual Position Encoding)
数据降维方法:PCA, t-SNE, UMAP | 动画讲解
[generative models] 概率建模视角下的现代生成模型(生成式 vs. 判别式,采样与密度估计)
[personal chatgpt] trl 基础介绍:reward model,ppotrainer
[personal chatgpt] trl reward model 与 RewardTrainer(奖励模型,分类模型)
[损失函数设计] 为什么多分类问题损失函数用交叉熵损失,而不是 MSE
yolo v11 都做了哪些修改 ?
[personal chatgpt] Llama2 7B vs. Llama3 8B (词表、attention 及 mlp)
【手推公式】可导损失函数(loss function)的梯度下降(GD)、随机梯度下降(SGD)以及mini-batch gd梯度优化策略
[personal chatgpt] LLAMA 3 整体介绍(与 LLama 2 的不同?)
[蒙特卡洛方法] 04 重要性采样补充,数学性质及 On-policy vs. Off-policy
[RLHF] 从 PPO rlhf 到 DPO,公式推导与原理分析
[personal chatgpt] peft LoRA merge pipeline(lora inject,svd)
[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader(mnist、fashionmnist、cifar10)
【深度学习环境搭建】01 本机、GPU服务器端深度学习环境搭建(代码、数据共享)
[强化学习基础 01] MDP 基础(概率转移,与POMDP、I-POMDP)
[DRL] 从 TRPO 到 PPO(PPO-penalty,PPO-clip)
[pytorch] [求导练习] 02 softmax 函数自动求导练习(autograd,Jacobian matrix)
【深度学习环境搭建】02 gpu 服务器端部署 jupyter notebook server
[pytorch] 激活函数(梯度消失)sigmoid,clamp,relu(sparse representation,dying relu)
[蒙特卡洛方法] 01 从黎曼和式积分(Reimann Sum)到蒙特卡洛估计(monte carlo estimation)求积分求期望
[AI 核心概念及计算] 概率计算 01 pytorch 最大似然估计(MLE)伯努利分布的参数
yolo v11 | C3k2 模块结构详解
[pytorch] [求导练习] 01 sigmoid 函数自动求导练习(autograd,单变量,多变量 multivariables 形式)
【python 运筹优化】scipy.optimize.minimize 使用
[bert、t5、gpt] 10 知识蒸馏(knowledge distill)初步,模型结构及损失函数设计
[程序员说金融] 对数回报率(收益率)及其性质(可加性,负对称性,及泰勒展开下的近似相等)
[LLMs 实践] 18 llama2 源码分析 RoPE 相对位置编码的复数形式
[pytorch 强化学习] 10 从 Q Learning 到 DQN(experience replay 与 huber loss / smooth L1)
[LLMs 实践] 20 llama2 源码分析 cache KV(keys、values cache)加速推理
[动手写神经网络] 如何设计卷积核(conv kernel)实现降2采样,以及初探vggnet/resnet 卷积设计思路(不断降空间尺度,升channel)
【数值计算】牛顿迭代法(Newton's method,Newton-Raphson method,牛顿-拉夫逊(拉弗森))计算二次方根(sqrt)三次方根
[概率 & 统计] kl div kl散度的计算及应用(pytorch)
[动手写 Transformer] 从 RNN 到 Transformer,为什么需要位置编码(position encoding)
【数据分析】成本(固定成本、可变成本)收益利润模型(cost-revenue-profit)、盈亏平衡分析
[pytorch] 激活函数,从 ReLU、LeakyRELU 到 GELU 及其梯度(gradient)(BertLayer,FFN,GELU)
[pytorch 强化学习] 12 逐行写代码实现 DQN 完全体
[BERT 番外] Sin Position Encoding 的简洁实现(RoPE 基础)
[强化学习基础 03] 多臂老虎机(Multi-Armed Bandit)与 UCB
excel单变量求解工具进行企业生产活动的盈亏平衡分析