[DRL] 从策略梯度到 TRPO（Lagrange Duality，拉格朗日对偶性） - 视频下载 Video Downloader

[DRL] 从策略梯度到 TRPO（Lagrange Duality，拉格朗日对偶性）

发布人

本期 code：https://github.com/chunhuizhang/personal_chatgpt/blob/main/tutorials/drl/policy_based/pg_trpo_ppo.ipynb
重要性采样（IS）On Policy =&gt; Off policy：https://www.bilibili.com/video/BV1Vr421u7Qz
Policy Gradient（REINFORCE）：https://www.bilibili.com/video/BV1eg4y1s7TN/

打开封面下载高清视频观看高清视频视频下载器

[DRL] 从 TRPO 到 PPO（PPO-penalty，PPO-clip）

【人工智能基础】第48讲：策略梯度-Reinforce-Actor Critic

[蒙特卡洛方法] 04 重要性采样补充，数学性质及 On-policy vs. Off-policy

[pytorch 强化学习] 05 迷宫环境（maze environment）策略梯度（Policy Gradient）求解

[优化算法] 梯度下降、共轭梯度、牛顿法、逆牛顿法（BFGS）

[pytorch 强化学习] 01 认识环境（environment，gym.Env）以及 CartPole-v0/v1 环境

[personal chatgpt] 从 RoPE 到 CoPE（绝对位置编码，相对位置编码，Contextual Position Encoding）

[linux tools] tmux 分屏（终端复用器）

[pytorch 强化学习] 13 基于 pytorch 神经网络实现 policy gradient（REINFORCE）求解 CartPole

[pytorch distributed] 01 nn.DataParallel 数据并行初步

[矩阵分析] LoRA 矩阵分析基础之 SVD low rank approximation（低秩逼近）

[pytorch] 激活函数，从 ReLU、LeakyRELU 到 GELU 及其梯度（gradient）（BertLayer，FFN，GELU）

[机器学习理论] 霍夫丁不等式（hoeffding's inequality）到 UCB

[蒙特卡洛方法] 01 从黎曼和式积分（Reimann Sum）到蒙特卡洛估计（monte carlo estimation）求积分求期望

[pytorch] [求导练习] 03 计算图（computation graph）及链式法则（chain rule）反向传播过程

[pytorch 强化学习] 11 逐行写代码实现 DQN（ReplayMemory，Transition，DQN as Q function）

[LLMs 实践] 20 llama2 源码分析 cache KV（keys、values cache）加速推理

[pytorch] [求导练习] 04 前向计算与反向传播与梯度更新（forward，loss.backward(), optimizer.step）

[pytorch] [求导练习] 06 计算图（computation graph）细节之 retain graph（multi output/backwar）

[RLHF] 从 PPO rlhf 到 DPO，公式推导与原理分析

[数学！数学] 最大似然估计（MLE）与最小化交叉熵损失（cross entropy loss）的等价性

[动手写bert系列] 01 huggingface tokenizer （vocab，encode，decode）原理及细节

[概率 & 统计] kl div kl散度的计算及应用（pytorch）

[pytorch 强化学习] 10 从 Q Learning 到 DQN（experience replay 与 huber loss / smooth L1）

【python 运筹优化】scipy.optimize.minimize 使用

[概率 & 统计] Thompson Sampling（随机贝叶斯后验采样）与多臂老虎机

[pytorch] [求导练习] 01 sigmoid 函数自动求导练习（autograd，单变量，多变量 multivariables 形式）

[pytorch distributed] 02 DDP 基本概念（Ring AllReduce，node，world，rank，参数服务器）

[概率 & 统计] KL 散度（KL div）forward vs. reverse

[QKV attention] flash attention（Tiling与重计算），operation fused，HBM vs. SRAM

[leetcode reviews] 01 计算思维与刷题方法

[pytorch] 激活函数（梯度消失）sigmoid，clamp，relu（sparse representation，dying relu）

[pytorch] nn.Embedding 前向查表索引过程与 one hot 关系及 max_norm 的作用

[generative models] 概率建模视角下的现代生成模型（生成式 vs. 判别式，采样与密度估计）

[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader（mnist、fashionmnist、cifar10）

[番外] float16 与 bf16 表示和计算细节

[强化学习基础 03] 多臂老虎机（Multi-Armed Bandit）与 UCB

[pytorch distributed] torch 分布式基础（process group），点对点通信，集合通信

[LangChain] 01 基础入门，LCEL 、Tool Use、RAG 以及 LangSmith

[personal chatgpt] LLAMA 3 整体介绍（与 LLama 2 的不同？）