[personal chatgpt] trl reward model 与 RewardTrainer（奖励模型，分类模型） - 视频下载 Video Downloader

[personal chatgpt] trl reward model 与 RewardTrainer（奖励模型，分类模型）

发布人

本期code：https://github.com/chunhuizhang/personal_chatgpt/blob/main/tutorials/reward_model/trl_reward_trainer.ipynb
trl 视频：
trl SFT trainer：https://www.bilibili.com/video/BV1jh4y1c713/
trl 基础介绍：https://www.bilibili.com/video/BV1zm4y1H79x/

打开封面下载高清视频观看高清视频视频下载器

[personal chatgpt] trl rlhf PPOTrainer，原理分析与代码走读（OpenRLHF framework）

[personal chatgpt] trl 基础介绍：reward model，ppotrainer

[personal chatgpt] Llama2 7B vs. Llama3 8B （词表、attention 及 mlp）

[pytorch distributed] 04 模型并行（model parallel）on ResNet50

[动手写 bert 系列] bert model architecture 模型架构初探（embedding + encoder + pooler）

[bert、t5、gpt] 06 GPT2 整体介绍（tokenizer，model forward）

[LLMs tuning] 01 trl SFTTrainer 中的 formatting_func 与 DataCollatorForCompletion

[personal chatgpt] LLAMA 3 整体介绍（与 LLama 2 的不同？）

[LLMs 实践] 12 LLM SFT training （trl SFTTrainer、alpaca dataset）

[LLMs tuning] 02 accelerate ddp 与 trl SFTTrainer

[personal chatgpt] gpt-4o tokenizer 及特殊中文tokens（压缩词表），o200k_base

[动手写神经网络] 02 逐行写代码 CNN pipeline 图像分类（模型结构、训练、评估）

[personal chatgpt] 从 RoPE 到 CoPE（绝对位置编码，相对位置编码，Contextual Position Encoding）

[LLM && AIGC] visual chatgpt 01 认识 image captioning 及 blip model

[LLM & AIGC] 02 ChatGPT api 的简单介绍（system, user, assistant）与多轮对话

[纳什荐书][生成式AI] 01 《GPT图解》导读

【python 运筹】constraint satisfaction problems | 约束满足问题 | ortools.sat | cp_model

[模型拓扑结构] pytorch 注册钩子函数（register_forward_hook）实现对各个层（layer）输入输出 shape 的查看

【python 运筹优化】scipy.optimize.minimize 使用

[LLMs tuning] 05 StackLlama、SFT+DPO（代码组织、数据处理，pipeline）

[LLMs tuning] 06 多轮对话 qlora SFT（Multi-turn Conversation）

[pytorch 强化学习] 11 逐行写代码实现 DQN（ReplayMemory，Transition，DQN as Q function）

【手推公式】logistic regression 及其与 linear regression 的区别，对数线性与对数几率

[RLHF] 从 PPO rlhf 到 DPO，公式推导与原理分析

[pytorch 强化学习] 08 CartPole Q learning 连续状态离散化（digitize 分桶）及 display_frame_as_gif

[python 多进程、多线程] 03 GIL、threading、多进程，concurrent.futures

[动手写神经网络] 04 使用预训练 vgg 提升 cifar10 分类准确率

[LLMs 实践] 09 BPE gpt2 tokenizer 与 train tokenizer

【手推公式】从二分类到多分类，从sigmoid到softmax，从最大似然估计到 cross entropy

[全栈深度学习] 02 vscode remote（远程）gpus 服务器开发调试 debugger（以 nanoGPT 为例）

[调包侠] 使用 PyTorch Swin Transformer 完成图像分类

【手推公式】从二分类（二项分布）到多分类（多项分布），最大似然估计与交叉熵损失的等价

[动手写神经网络] 05 使用预训练 resnet18 提升 cifar10 分类准确率及误分类图像可视化分析

[[bert、t5、gpt] 03 AttentionHead 与 MultiHeadAttention

[pytorch 强化学习] 04 迷宫环境（maze environment）封装 MazeEnv、Agent 类

【python 数学编程】SymPy 数学家的朋友 | hessian | Jacobian

【手推公式】从 logodds 到 sigmoid 概率化输出，用于 LR、XGBoost 的分类任务

[动手写Bert系列] bertencoder self attention 计算细节及计算过程

[bert、t5、gpt] 05 构建 TransformerDecoderLayer（FFN 与 Masked MultiHeadAttention）

[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader（mnist、fashionmnist、cifar10）