V
主页
[personal chatgpt] trl reward model 与 RewardTrainer(奖励模型,分类模型)
发布人
本期code:https://github.com/chunhuizhang/personal_chatgpt/blob/main/tutorials/reward_model/trl_reward_trainer.ipynb trl 视频: trl SFT trainer:https://www.bilibili.com/video/BV1jh4y1c713/ trl 基础介绍:https://www.bilibili.com/video/BV1zm4y1H79x/
打开封面
下载高清视频
观看高清视频
视频下载器
[personal chatgpt] trl rlhf PPOTrainer,原理分析与代码走读(OpenRLHF framework)
[personal chatgpt] trl 基础介绍:reward model,ppotrainer
[personal chatgpt] Llama2 7B vs. Llama3 8B (词表、attention 及 mlp)
[pytorch distributed] 04 模型并行(model parallel)on ResNet50
[动手写 bert 系列] bert model architecture 模型架构初探(embedding + encoder + pooler)
[bert、t5、gpt] 06 GPT2 整体介绍(tokenizer,model forward)
[LLMs tuning] 01 trl SFTTrainer 中的 formatting_func 与 DataCollatorForCompletion
[personal chatgpt] LLAMA 3 整体介绍(与 LLama 2 的不同?)
[LLMs 实践] 12 LLM SFT training (trl SFTTrainer、alpaca dataset)
[LLMs tuning] 02 accelerate ddp 与 trl SFTTrainer
[personal chatgpt] gpt-4o tokenizer 及特殊中文tokens(压缩词表),o200k_base
[动手写神经网络] 02 逐行写代码 CNN pipeline 图像分类(模型结构、训练、评估)
[personal chatgpt] 从 RoPE 到 CoPE(绝对位置编码,相对位置编码,Contextual Position Encoding)
[LLM && AIGC] visual chatgpt 01 认识 image captioning 及 blip model
[LLM & AIGC] 02 ChatGPT api 的简单介绍(system, user, assistant)与多轮对话
[纳什荐书][生成式AI] 01 《GPT图解》导读
【python 运筹】constraint satisfaction problems | 约束满足问题 | ortools.sat | cp_model
[模型拓扑结构] pytorch 注册钩子函数(register_forward_hook)实现对各个层(layer)输入输出 shape 的查看
【python 运筹优化】scipy.optimize.minimize 使用
[LLMs tuning] 05 StackLlama、SFT+DPO(代码组织、数据处理,pipeline)
[LLMs tuning] 06 多轮对话 qlora SFT(Multi-turn Conversation)
[pytorch 强化学习] 11 逐行写代码实现 DQN(ReplayMemory,Transition,DQN as Q function)
【手推公式】logistic regression 及其与 linear regression 的区别,对数线性与对数几率
[RLHF] 从 PPO rlhf 到 DPO,公式推导与原理分析
[pytorch 强化学习] 08 CartPole Q learning 连续状态离散化(digitize 分桶)及 display_frame_as_gif
[python 多进程、多线程] 03 GIL、threading、多进程,concurrent.futures
[动手写神经网络] 04 使用预训练 vgg 提升 cifar10 分类准确率
[LLMs 实践] 09 BPE gpt2 tokenizer 与 train tokenizer
【手推公式】从二分类到多分类,从sigmoid到softmax,从最大似然估计到 cross entropy
[全栈深度学习] 02 vscode remote(远程)gpus 服务器开发调试 debugger(以 nanoGPT 为例)
[调包侠] 使用 PyTorch Swin Transformer 完成图像分类
【手推公式】从二分类(二项分布)到多分类(多项分布),最大似然估计与交叉熵损失的等价
[动手写神经网络] 05 使用预训练 resnet18 提升 cifar10 分类准确率及误分类图像可视化分析
[[bert、t5、gpt] 03 AttentionHead 与 MultiHeadAttention
[pytorch 强化学习] 04 迷宫环境(maze environment)封装 MazeEnv、Agent 类
【python 数学编程】SymPy 数学家的朋友 | hessian | Jacobian
【手推公式】从 logodds 到 sigmoid 概率化输出,用于 LR、XGBoost 的分类任务
[动手写Bert系列] bertencoder self attention 计算细节及计算过程
[bert、t5、gpt] 05 构建 TransformerDecoderLayer(FFN 与 Masked MultiHeadAttention)
[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader(mnist、fashionmnist、cifar10)