V
主页
[personal chatgpt] trl 基础介绍:reward model,ppotrainer
发布人
本期 code:https://github.com/chunhuizhang/personal_chatgpt/blob/main/tutorials/trl_basics.ipynb
打开封面
下载高清视频
观看高清视频
视频下载器
[personal chatgpt] trl reward model 与 RewardTrainer(奖励模型,分类模型)
[RLHF] 从 PPO rlhf 到 DPO,公式推导与原理分析
[personal chatgpt] trl rlhf PPOTrainer,原理分析与代码走读(OpenRLHF framework)
【DPO衍生算法串讲-Part 1】r2Q*,Step-DPO,RTO,TDPO,SimPO,ORPO
[personal chatgpt] 从 RoPE 到 CoPE(绝对位置编码,相对位置编码,Contextual Position Encoding)
[personal chatgpt] LLAMA 3 整体介绍(与 LLama 2 的不同?)
【国内白嫖】10月30日最新ChatGPT4.0
[personal chatgpt] gpt-4o tokenizer 及特殊中文tokens(压缩词表),o200k_base
[personal chatgpt] Llama2 7B vs. Llama3 8B (词表、attention 及 mlp)
[LLM && AIGC] visual chatgpt 01 认识 image captioning 及 blip model
[LLM & AIGC] 02 ChatGPT api 的简单介绍(system, user, assistant)与多轮对话
[personal chatgpt] instructGPT 中的 reward modeling,概率建模与损失函数性质
[LLM+RL] 合成数据与model collapse,nature 正刊封面
[LLMs tuning] 06 多轮对话 qlora SFT(Multi-turn Conversation)
[DRL] 从 TRPO 到 PPO(PPO-penalty,PPO-clip)
[bert、t5、gpt] 06 GPT2 整体介绍(tokenizer,model forward)
[pytorch distributed] 04 模型并行(model parallel)on ResNet50
[personal chatgpt] peft LoRA merge pipeline(lora inject,svd)
【国内白嫖】11月17日最新ChatGPT4.0
【国内白嫖】10月31日最新ChatGPT4.0随便用
[LLMs tuning] 05 StackLlama、SFT+DPO(代码组织、数据处理,pipeline)
[LLMs tuning] 02 accelerate ddp 与 trl SFTTrainer
[LLMs tuning] 01 trl SFTTrainer 中的 formatting_func 与 DataCollatorForCompletion
【国内白嫖】11月15日最新ChatGPT4.0
[动手写 bert 系列] bert model architecture 模型架构初探(embedding + encoder + pooler)
[LLM && AIGC] 05 OpenAI 长文本(long text,超出 max_tokens)处理及 summary,划分 chunk 处理
[LLMs 实践] 12 LLM SFT training (trl SFTTrainer、alpaca dataset)
[Python 机器学习] 深入理解 numpy(ndarray)的 axis(轴/维度)
【国内白嫖】11月6日最新ChatGPT4.0
【python 运筹】constraint satisfaction problems | 约束满足问题 | ortools.sat | cp_model
[pytorch 强化学习] 10 从 Q Learning 到 DQN(experience replay 与 huber loss / smooth L1)
[LLM & AIGC] 03 openai embedding (text-embedding-ada-002)基于 embedding 的文本语义匹配
[LLMs 实践] 01 llama、alpaca、vicuna 整体介绍及 llama 推理过程
[矩阵分析] LoRA 矩阵分析基础之 SVD low rank approximation(低秩逼近)
【国内白嫖】11月8日最新ChatGPT4.0
[python 多进程、多线程] 03 GIL、threading、多进程,concurrent.futures
【国内白嫖】10月23日最新ChatGPT4.0随便用
【国内白嫖】10月31日最新ChatGPT4.0
[动手写神经网络] 05 使用预训练 resnet18 提升 cifar10 分类准确率及误分类图像可视化分析
[动手写bert系列] 01 huggingface tokenizer (vocab,encode,decode)原理及细节