V
主页
[DRL] 从 TRPO 到 PPO(PPO-penalty,PPO-clip)
发布人
本期 code:https://github.com/chunhuizhang/personal_chatgpt/blob/main/tutorials/drl/policy_based/pg_trpo_ppo.ipynb 从策略梯度到 TRPO:https://www.bilibili.com/video/BV1hD421K7gG/ 重要性采样(off-policy => on-policy):https://www.bilibili.com/video/BV1Vr421u7Qz/
打开封面
下载高清视频
观看高清视频
视频下载器
[DRL] 从策略梯度到 TRPO(Lagrange Duality,拉格朗日对偶性)
[RLHF] 从 PPO rlhf 到 DPO,公式推导与原理分析
[pytorch 强化学习] 01 认识环境(environment,gym.Env)以及 CartPole-v0/v1 环境
【DPO衍生算法串讲-Part 1】r2Q*,Step-DPO,RTO,TDPO,SimPO,ORPO
[pytorch distributed] 从 DDP、模型并行、流水线并行到 FSDP(NCCL,deepspeed 与 Accelerate)
【python 运筹优化】scipy.optimize.minimize 接口介绍(method、jacobian、hessian)| 有约束非线性优化
[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader(mnist、fashionmnist、cifar10)
我的焦虑被治愈了,要是早点看到这个视频,会少很多内耗!!!
【运筹】0/1二值逻辑整数规划约束的描述与表达,conditional/multiple choices以及互斥约束建模
【约束满足问题】AIMA | Chap 6 | CSP | AC-3 | Arc Consistency
[pytorch] 深入理解 nn.KLDivLoss(kl 散度) 与 nn.CrossEntropyLoss(交叉熵)
【个人成长】世界顶级大脑教练 吉姆·奎克(Jim Kwik):“只需一天改变你的生活”——掌握专注、目标与高效的秘密
[概率 & 统计] KL 散度(KL div)forward vs. reverse
[pytorch 强化学习] 11 逐行写代码实现 DQN(ReplayMemory,Transition,DQN as Q function)
[Python 机器学习] 深入理解 numpy(ndarray)的 axis(轴/维度)
[矩阵分析] LoRA 矩阵分析基础之 SVD low rank approximation(低秩逼近)
[pytorch 强化学习] 10 从 Q Learning 到 DQN(experience replay 与 huber loss / smooth L1)
【ortools】【cpmodel】八皇后问题的约束规划求解(leetcode 51/52 n-queens)
[pytorch distributed] 张量并行与 megtron-lm 及 accelerate 配置
[pytorch optim] pytorch 作为一个通用优化问题求解器(目标函数、决策变量)
[调包侠] 使用深度学习模型(paddlehub - humanseg)进行人物提取(前景提取、抠图)
[LLMs 实践] 01 llama、alpaca、vicuna 整体介绍及 llama 推理过程
[personal chatgpt] trl rlhf PPOTrainer,原理分析与代码走读(OpenRLHF framework)
【运筹优化】CSP(约束满足最优化)| CP-SAT | domain reduction | constraint propagation
(中英对照)顶尖神经科学家:如何通过欺骗你的大脑来显化你的目标,实现你想要的一切【EmpowerHer vol.45】
[动手写bert系列] 01 huggingface tokenizer (vocab,encode,decode)原理及细节
[pytorch] 激活函数(梯度消失)sigmoid,clamp,relu(sparse representation,dying relu)
【运筹】运筹决策系统的搭建,从决策变量、中间变量到约束及目标,从求解到无解时约束的放松
[动手写神经网络] 如何设计卷积核(conv kernel)实现降2采样,以及初探vggnet/resnet 卷积设计思路(不断降空间尺度,升channel)
[LangChain] 03 LangGraph 基本概念(AgentState、StateGraph,nodes,edges)
[pytorch] [求导练习] 03 计算图(computation graph)及链式法则(chain rule)反向传播过程
[QKV attention] flash attention(Tiling与重计算),operation fused,HBM vs. SRAM
[LLM && AIGC] 05 OpenAI 长文本(long text,超出 max_tokens)处理及 summary,划分 chunk 处理
[LLMs inference] quantization 量化整体介绍(bitsandbytes、GPTQ、GGUF、AWQ)
[动手写神经网络] 05 使用预训练 resnet18 提升 cifar10 分类准确率及误分类图像可视化分析
[LLMs 实践] 02 LoRA(Low Rank Adaption)基本原理与基本概念,fine-tune 大语言模型
10【自用】Optislang多目标优化设计
[pytorch distributed] 01 nn.DataParallel 数据并行初步
[pytorch 强化学习] 07 迷宫环境(maze environment)Q Learning(value iteration)求解(策略关闭 off)
[蒙特卡洛方法] 01 从黎曼和式积分(Reimann Sum)到蒙特卡洛估计(monte carlo estimation)求积分求期望