[personal chatgpt] instructGPT 中的 reward modeling，概率建模与损失函数性质

发布人

本期 code：https://github.com/chunhuizhang/personal_chatgpt/blob/main/tutorials/reward_model/reward_model_Bradley_Terry_model.ipynb
reward model &amp; ppo：BV1zm4y1H79x
trl reward model 实践：BV1GZ421t7oU

打开封面下载高清视频观看高清视频视频下载器

[personal chatgpt] 从 RoPE 到 CoPE（绝对位置编码，相对位置编码，Contextual Position Encoding）

数据降维方法：PCA, t-SNE, UMAP | 动画讲解

[generative models] 概率建模视角下的现代生成模型（生成式 vs. 判别式，采样与密度估计）

[personal chatgpt] trl 基础介绍：reward model，ppotrainer

[personal chatgpt] trl reward model 与 RewardTrainer（奖励模型，分类模型）

[损失函数设计] 为什么多分类问题损失函数用交叉熵损失，而不是 MSE

yolo v11 都做了哪些修改？

[personal chatgpt] Llama2 7B vs. Llama3 8B （词表、attention 及 mlp）

【手推公式】可导损失函数（loss function）的梯度下降（GD）、随机梯度下降（SGD）以及mini-batch gd梯度优化策略

[personal chatgpt] LLAMA 3 整体介绍（与 LLama 2 的不同？）

[蒙特卡洛方法] 04 重要性采样补充，数学性质及 On-policy vs. Off-policy

[RLHF] 从 PPO rlhf 到 DPO，公式推导与原理分析

[personal chatgpt] peft LoRA merge pipeline（lora inject，svd）

[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader（mnist、fashionmnist、cifar10）

【深度学习环境搭建】01 本机、GPU服务器端深度学习环境搭建（代码、数据共享）

[强化学习基础 01] MDP 基础（概率转移，与POMDP、I-POMDP）

[DRL] 从 TRPO 到 PPO（PPO-penalty，PPO-clip）

[pytorch] [求导练习] 02 softmax 函数自动求导练习（autograd，Jacobian matrix）

【深度学习环境搭建】02 gpu 服务器端部署 jupyter notebook server

[pytorch] 激活函数（梯度消失）sigmoid，clamp，relu（sparse representation，dying relu）

[蒙特卡洛方法] 01 从黎曼和式积分（Reimann Sum）到蒙特卡洛估计（monte carlo estimation）求积分求期望

[AI 核心概念及计算] 概率计算 01 pytorch 最大似然估计（MLE）伯努利分布的参数

yolo v11 ｜ C3k2 模块结构详解

[pytorch] [求导练习] 01 sigmoid 函数自动求导练习（autograd，单变量，多变量 multivariables 形式）

【python 运筹优化】scipy.optimize.minimize 使用

[bert、t5、gpt] 10 知识蒸馏（knowledge distill）初步，模型结构及损失函数设计

[程序员说金融] 对数回报率（收益率）及其性质（可加性，负对称性，及泰勒展开下的近似相等）

[LLMs 实践] 18 llama2 源码分析 RoPE 相对位置编码的复数形式

[pytorch 强化学习] 10 从 Q Learning 到 DQN（experience replay 与 huber loss / smooth L1）

[LLMs 实践] 20 llama2 源码分析 cache KV（keys、values cache）加速推理

[动手写神经网络] 如何设计卷积核（conv kernel）实现降2采样，以及初探vggnet/resnet 卷积设计思路（不断降空间尺度，升channel）

【数值计算】牛顿迭代法（Newton's method，Newton-Raphson method，牛顿-拉夫逊（拉弗森））计算二次方根（sqrt）三次方根

[概率 & 统计] kl div kl散度的计算及应用（pytorch）

[动手写 Transformer] 从 RNN 到 Transformer，为什么需要位置编码（position encoding）

【数据分析】成本（固定成本、可变成本）收益利润模型（cost-revenue-profit）、盈亏平衡分析

[pytorch] 激活函数，从 ReLU、LeakyRELU 到 GELU 及其梯度（gradient）（BertLayer，FFN，GELU）

[pytorch 强化学习] 12 逐行写代码实现 DQN 完全体

[BERT 番外] Sin Position Encoding 的简洁实现（RoPE 基础）

[强化学习基础 03] 多臂老虎机（Multi-Armed Bandit）与 UCB

excel单变量求解工具进行企业生产活动的盈亏平衡分析

[personal chatgpt] instructGPT 中的 reward modeling，概率建模与损失函数性质

[personal chatgpt] 从 RoPE 到 CoPE（绝对位置编码，相对位置编码，Contextual Position Encoding）

数据降维方法：PCA, t-SNE, UMAP | 动画讲解

[generative models] 概率建模视角下的现代生成模型（生成式 vs. 判别式，采样与密度估计）

[personal chatgpt] trl 基础介绍：reward model，ppotrainer

[personal chatgpt] trl reward model 与 RewardTrainer（奖励模型，分类模型）

[损失函数设计] 为什么多分类问题损失函数用交叉熵损失，而不是 MSE

yolo v11 都做了哪些修改 ？

[personal chatgpt] Llama2 7B vs. Llama3 8B （词表、attention 及 mlp）

【手推公式】可导损失函数（loss function）的梯度下降（GD）、随机梯度下降（SGD）以及mini-batch gd梯度优化策略

[personal chatgpt] LLAMA 3 整体介绍（与 LLama 2 的不同？）

[蒙特卡洛方法] 04 重要性采样补充，数学性质及 On-policy vs. Off-policy

[RLHF] 从 PPO rlhf 到 DPO，公式推导与原理分析

[personal chatgpt] peft LoRA merge pipeline（lora inject，svd）

[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader（mnist、fashionmnist、cifar10）

【深度学习环境搭建】01 本机、GPU服务器端深度学习环境搭建（代码、数据共享）

[强化学习基础 01] MDP 基础（概率转移，与POMDP、I-POMDP）

[DRL] 从 TRPO 到 PPO（PPO-penalty，PPO-clip）

[pytorch] [求导练习] 02 softmax 函数自动求导练习（autograd，Jacobian matrix）

【深度学习环境搭建】02 gpu 服务器端部署 jupyter notebook server

[pytorch] 激活函数（梯度消失）sigmoid，clamp，relu（sparse representation，dying relu）

[蒙特卡洛方法] 01 从黎曼和式积分（Reimann Sum）到蒙特卡洛估计（monte carlo estimation）求积分求期望

[AI 核心概念及计算] 概率计算 01 pytorch 最大似然估计（MLE）伯努利分布的参数

yolo v11 ｜ C3k2 模块结构详解

[pytorch] [求导练习] 01 sigmoid 函数自动求导练习（autograd，单变量，多变量 multivariables 形式）

【python 运筹优化】scipy.optimize.minimize 使用

[bert、t5、gpt] 10 知识蒸馏（knowledge distill）初步，模型结构及损失函数设计

[程序员说金融] 对数回报率（收益率）及其性质（可加性，负对称性，及泰勒展开下的近似相等）

[LLMs 实践] 18 llama2 源码分析 RoPE 相对位置编码的复数形式

[pytorch 强化学习] 10 从 Q Learning 到 DQN（experience replay 与 huber loss / smooth L1）

[LLMs 实践] 20 llama2 源码分析 cache KV（keys、values cache）加速推理

[动手写神经网络] 如何设计卷积核（conv kernel）实现降2采样，以及初探vggnet/resnet 卷积设计思路（不断降空间尺度，升channel）

【数值计算】牛顿迭代法（Newton's method，Newton-Raphson method，牛顿-拉夫逊（拉弗森））计算二次方根（sqrt）三次方根

[概率 & 统计] kl div kl散度的计算及应用（pytorch）

[动手写 Transformer] 从 RNN 到 Transformer，为什么需要位置编码（position encoding）

【数据分析】成本（固定成本、可变成本）收益利润模型（cost-revenue-profit）、盈亏平衡分析

[pytorch] 激活函数，从 ReLU、LeakyRELU 到 GELU 及其梯度（gradient）（BertLayer，FFN，GELU）

[pytorch 强化学习] 12 逐行写代码实现 DQN 完全体

[BERT 番外] Sin Position Encoding 的简洁实现（RoPE 基础）

[强化学习基础 03] 多臂老虎机（Multi-Armed Bandit）与 UCB

excel单变量求解工具进行企业生产活动的盈亏平衡分析

yolo v11 都做了哪些修改？