V
主页
[personal chatgpt] trl 基础介绍:reward model,ppotrainer
发布人
本期 code:https://github.com/chunhuizhang/personal_chatgpt/blob/main/tutorials/trl_basics.ipynb
打开封面
下载高清视频
观看高清视频
视频下载器
[RLHF] 从 PPO rlhf 到 DPO,公式推导与原理分析
[personal chatgpt] trl rlhf PPOTrainer,原理分析与代码走读(OpenRLHF framework)
[personal chatgpt] trl reward model 与 RewardTrainer(奖励模型,分类模型)
[personal chatgpt] 从 RoPE 到 CoPE(绝对位置编码,相对位置编码,Contextual Position Encoding)
[personal chatgpt] LLAMA 3 整体介绍(与 LLama 2 的不同?)
[personal chatgpt] Llama2 7B vs. Llama3 8B (词表、attention 及 mlp)
[DRL] 从 TRPO 到 PPO(PPO-penalty,PPO-clip)
[personal chatgpt] gpt-4o tokenizer 及特殊中文tokens(压缩词表),o200k_base
[LLMs 实践] 12 LLM SFT training (trl SFTTrainer、alpaca dataset)
【国内白嫖】9月5日最新ChatGPT4.0
[LLMs tuning] 01 trl SFTTrainer 中的 formatting_func 与 DataCollatorForCompletion
【国内白嫖】9月27日最新ChatGPT4.0随便用
[LLMs tuning] 06 多轮对话 qlora SFT(Multi-turn Conversation)
[LLM && AIGC] visual chatgpt 01 认识 image captioning 及 blip model
[personal chatgpt] peft LoRA merge pipeline(lora inject,svd)
【国内白嫖】9月3日最新ChatGPT4.0随便用
【国内白嫖】9月29日最新ChatGPT4.0
[pytorch distributed] 04 模型并行(model parallel)on ResNet50
[LLMs tuning] 05 StackLlama、SFT+DPO(代码组织、数据处理,pipeline)
【国内白嫖】9月24日最新ChatGPT4.0
【国内白嫖】9月26日最新ChatGPT4.0
【国内白嫖】9月6日最新ChatGPT4.0随便用
[pytorch] BN、LN、RMSNorm 及 pre LN vs. post LN 对比,标准化
[蒙特卡洛方法] 01 从黎曼和式积分(Reimann Sum)到蒙特卡洛估计(monte carlo estimation)求积分求期望
【国内白嫖】9月21日最新ChatGPT4.0随便用
【国内白嫖】9月9日最新ChatGPT4.0
[pytorch 强化学习] 01 认识环境(environment,gym.Env)以及 CartPole-v0/v1 环境
[蒙特卡洛方法] 02 重要性采样(importance sampling)及 python 实现
[LLMs tuning] 02 accelerate ddp 与 trl SFTTrainer
[diffusion] 生成模型基础 VAE 原理及实现
[矩阵分析] LoRA 矩阵分析基础之 SVD low rank approximation(低秩逼近)
【sklearn machin learning】linear model(lr/lasso/ridge)预测回归2020年双11总成交额(GMV)
【国内白嫖】9月16日最新ChatGPT4.0随便用
【深度学习环境搭建】02 gpu 服务器端部署 jupyter notebook server
[Python 机器学习] 深入理解 numpy(ndarray)的 axis(轴/维度)
[LLMs 实践] 07 fp16 与自动混合精度训练(amp)显著提升 batch size
[LangChain] 05 LangChain、LangGraph 结构化输出(Structured output),gpt-4o-2024-08-06
[bert、t5、gpt] 06 GPT2 整体介绍(tokenizer,model forward)
[调包侠] 使用 gensim 完成 word2vec 的计算,及 model.most_similar 的计算过程(positive,negative)
【国内白嫖】9月14日最新ChatGPT4.0