[personal chatgpt] trl 基础介绍：reward model，ppotrainer - 视频下载 Video Downloader

[personal chatgpt] trl 基础介绍：reward model，ppotrainer

发布人

本期 code：https://github.com/chunhuizhang/personal_chatgpt/blob/main/tutorials/trl_basics.ipynb

打开封面下载高清视频观看高清视频视频下载器

[personal chatgpt] trl reward model 与 RewardTrainer（奖励模型，分类模型）

[RLHF] 从 PPO rlhf 到 DPO，公式推导与原理分析

[personal chatgpt] trl rlhf PPOTrainer，原理分析与代码走读（OpenRLHF framework）

【DPO衍生算法串讲-Part 1】r2Q*，Step-DPO，RTO，TDPO，SimPO，ORPO

[personal chatgpt] 从 RoPE 到 CoPE（绝对位置编码，相对位置编码，Contextual Position Encoding）

[personal chatgpt] LLAMA 3 整体介绍（与 LLama 2 的不同？）

【国内白嫖】10月30日最新ChatGPT4.0

[personal chatgpt] gpt-4o tokenizer 及特殊中文tokens（压缩词表），o200k_base

[personal chatgpt] Llama2 7B vs. Llama3 8B （词表、attention 及 mlp）

[LLM && AIGC] visual chatgpt 01 认识 image captioning 及 blip model

[LLM & AIGC] 02 ChatGPT api 的简单介绍（system, user, assistant）与多轮对话

[personal chatgpt] instructGPT 中的 reward modeling，概率建模与损失函数性质

[LLM+RL] 合成数据与model collapse，nature 正刊封面

[LLMs tuning] 06 多轮对话 qlora SFT（Multi-turn Conversation）

[DRL] 从 TRPO 到 PPO（PPO-penalty，PPO-clip）

[bert、t5、gpt] 06 GPT2 整体介绍（tokenizer，model forward）

[pytorch distributed] 04 模型并行（model parallel）on ResNet50

[personal chatgpt] peft LoRA merge pipeline（lora inject，svd）

【国内白嫖】11月17日最新ChatGPT4.0

【国内白嫖】10月31日最新ChatGPT4.0随便用

[LLMs tuning] 05 StackLlama、SFT+DPO（代码组织、数据处理，pipeline）

[LLMs tuning] 02 accelerate ddp 与 trl SFTTrainer

[LLMs tuning] 01 trl SFTTrainer 中的 formatting_func 与 DataCollatorForCompletion

【国内白嫖】11月15日最新ChatGPT4.0

[动手写 bert 系列] bert model architecture 模型架构初探（embedding + encoder + pooler）

[LLM && AIGC] 05 OpenAI 长文本（long text，超出 max_tokens）处理及 summary，划分 chunk 处理

[LLMs 实践] 12 LLM SFT training （trl SFTTrainer、alpaca dataset）

[Python 机器学习] 深入理解 numpy（ndarray）的 axis（轴/维度）

【国内白嫖】11月6日最新ChatGPT4.0

【python 运筹】constraint satisfaction problems | 约束满足问题 | ortools.sat | cp_model

[pytorch 强化学习] 10 从 Q Learning 到 DQN（experience replay 与 huber loss / smooth L1）

[LLM & AIGC] 03 openai embedding （text-embedding-ada-002）基于 embedding 的文本语义匹配

[LLMs 实践] 01 llama、alpaca、vicuna 整体介绍及 llama 推理过程

[矩阵分析] LoRA 矩阵分析基础之 SVD low rank approximation（低秩逼近）

【国内白嫖】11月8日最新ChatGPT4.0

[python 多进程、多线程] 03 GIL、threading、多进程，concurrent.futures

【国内白嫖】10月23日最新ChatGPT4.0随便用

【国内白嫖】10月31日最新ChatGPT4.0

[动手写神经网络] 05 使用预训练 resnet18 提升 cifar10 分类准确率及误分类图像可视化分析

[动手写bert系列] 01 huggingface tokenizer （vocab，encode，decode）原理及细节