V
主页
[personal chatgpt] instructGPT 中的 reward modeling,概率建模与损失函数性质
发布人
本期 code:https://github.com/chunhuizhang/personal_chatgpt/blob/main/tutorials/reward_model/reward_model_Bradley_Terry_model.ipynb reward model & ppo:BV1zm4y1H79x trl reward model 实践:BV1GZ421t7oU
打开封面
下载高清视频
观看高清视频
视频下载器
直男搭讪 大方简单就可以和女生交朋友
我闻到了未来老头的味道!
【火辣小护士爆装备版】第一支视频求三连!
纽约生活日记|自制健康饮食/一周校园日常|美国留学vlog
当我第一次偷看喜欢的你
教练“你防他中距离不就行了”防守人“请看VCR”
[personal chatgpt] trl 基础介绍:reward model,ppotrainer
原来大真的会弹啊!
[数学!数学] 最大似然估计(MLE)与最小化交叉熵损失(cross entropy loss)的等价性
做梦女有感:女孩,你的一切都不该“羞耻”
【战鹰写真】韩国唯美战鹰
[generative models] 概率建模视角下的现代生成模型(生成式 vs. 判别式,采样与密度估计)
【笑笑】|白金disco
[personal chatgpt] trl reward model 与 RewardTrainer(奖励模型,分类模型)
[损失函数设计] 为什么多分类问题损失函数用交叉熵损失,而不是 MSE
[动手写bert系列] 01 huggingface tokenizer (vocab,encode,decode)原理及细节
[personal chatgpt] peft LoRA merge pipeline(lora inject,svd)
[personal chatgpt] 从 RoPE 到 CoPE(绝对位置编码,相对位置编码,Contextual Position Encoding)
[pytorch] [求导练习] 02 softmax 函数自动求导练习(autograd,Jacobian matrix)
[personal chatgpt] Llama2 7B vs. Llama3 8B (词表、attention 及 mlp)
[pytorch 强化学习] 11 逐行写代码实现 DQN(ReplayMemory,Transition,DQN as Q function)
[personal chatgpt] gpt-4o tokenizer 及特殊中文tokens(压缩词表),o200k_base
肌肉男空腹有氧跑12公里可以有多快??
[强化学习基础 01] MDP 基础(概率转移,与POMDP、I-POMDP)
[personal chatgpt] LLAMA 3 整体介绍(与 LLama 2 的不同?)
骂你有什么用 你只会爽又不会改
[全栈深度学习] 02 vscode remote(远程)gpus 服务器开发调试 debugger(以 nanoGPT 为例)
[pytorch distributed] 04 模型并行(model parallel)on ResNet50
[pytorch 强化学习] 13 基于 pytorch 神经网络实现 policy gradient(REINFORCE)求解 CartPole
"他选择了最 啊?的打法"——人类极限·文班亚马个人混剪
[全栈深度学习] 01 docker 工具的基本使用及 nvidia cuda pytorch 镜像
[pytorch optim] pytorch 作为一个通用优化问题求解器(目标函数、决策变量)
其中一只眼睛出租给了有需要的人
[pytorch] [求导练习] 01 sigmoid 函数自动求导练习(autograd,单变量,多变量 multivariables 形式)
[pytorch] Tensor shape 变化 view 与 reshape(contiguous 的理解)
[pytorch] 激活函数,从 ReLU、LeakyRELU 到 GELU 及其梯度(gradient)(BertLayer,FFN,GELU)
[pytorch 强化学习] 09 (逐行写代码)CartPole Q learning 基于连续状态离散化(digitize 分桶)
[概率 & 统计] Thompson Sampling(随机贝叶斯后验采样)与多臂老虎机
[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader(mnist、fashionmnist、cifar10)
[模型拓扑结构] pytorch 注册钩子函数(register_forward_hook)实现对各个层(layer)输入输出 shape 的查看