[强化学习基础 01] MDP 基础（概率转移，与POMDP、I-POMDP）

发布人

本期 code：https://github.com/chunhuizhang/personal_chatgpt/blob/main/tutorials/drl/mdp_basics.ipynb

打开封面下载高清视频观看高清视频视频下载器

【强化学习】马尔科夫决策过程【白板推导系列】

快被强化学习劝退了

【强化学习的数学原理】课程：从零开始到透彻理解（完结）

【莫烦Python】强化学习 Reinforcement Learning

【王树森】深度强化学习(DRL)

013-策略迭代算法求解MDP马尔可夫决策过程

007-马尔可夫决策MDP过程讲解，新手也能看懂！

POMDP很好的例子分享

024-一张图，但讲懂马尔可夫决策过程

012-价值迭代算法求解MDP马尔可夫决策过程

RSS 2021 - MAGIC: 为在线POMDP规划算法学习宏观的行为 - Spotlight Talk 57（中文/英文字幕）

一题速成MDP价值迭代马尔可夫决策过程value-iteration算法人工智能

【RLChina论文研讨会】第34期尤扬 POMDP与Dec-POMDP问题的精确与近似解法

【10分钟学完2小时课程】伯克利cs188 马尔科夫决策过程 (MDP

[pytorch 强化学习] 11 逐行写代码实现 DQN（ReplayMemory，Transition，DQN as Q function）

[pytorch 强化学习] 01 认识环境（environment，gym.Env）以及 CartPole-v0/v1 环境

POMDP讲解

[强化学习知识、公式推导、代码讲解]1. 马尔可夫决策过程MDP

64.POMDP中的价值迭代

POMDP Introduction

[pytorch 强化学习] 02 将 env rendering 保存为 mp4/gif（以 CartPole 为例，mode='rgb_array'）

[概率 & 统计] Thompson Sampling（随机贝叶斯后验采样）与多臂老虎机

[pytorch 强化学习] 10 从 Q Learning 到 DQN（experience replay 与 huber loss / smooth L1）

【Coursera】Decision Making and Reinforcement Learning by Tony Dear 决策和强化学习

[强化学习基础 03] 多臂老虎机（Multi-Armed Bandit）与 UCB

[pytorch 强化学习] 06 迷宫环境（maze environment）SARSA（Q-table，value iteration）求解

[diffusion] 生成模型基础 VAE 原理及实现

[pytorch 强化学习] 13 基于 pytorch 神经网络实现 policy gradient（REINFORCE）求解 CartPole

[pytorch 强化学习] 09 （逐行写代码）CartPole Q learning 基于连续状态离散化（digitize 分桶）

[强化学习基础 02] MDP价值迭代算法（value iteration，V(s), Q(s,a), pi(s)）

[pytorch 强化学习] 12 逐行写代码实现 DQN 完全体

[DRL] 从 TRPO 到 PPO（PPO-penalty，PPO-clip）

[DRL] 从策略梯度到 TRPO（Lagrange Duality，拉格朗日对偶性）

[mcts] 01 mcts 基本概念基本原理（UCB）及两个示例

[手推公式] sigmoid 及其导数 softmax 及其导数性质（从 logits 到 probabilities）

[统计] python 假设检验基础（T-Test，ANOVA，chi2）

[pytorch 番外] Tensorboard 与计算图初步（算子与 ATen）

[pytorch] F.binary_cross_entropy（二分类）与 F.cross_entropy（多分类）

[凸函数] convex 性质与简森不等式（jensen's inequality）与 ELBO、投资组合理论（Porfolio）

[强化学习基础 01] MDP 基础（概率转移，与POMDP、I-POMDP）

【强化学习】马尔科夫决策过程【白板推导系列】

快被强化学习劝退了

【强化学习的数学原理】课程：从零开始到透彻理解（完结）

【莫烦Python】强化学习 Reinforcement Learning

【王树森】深度强化学习(DRL)

013-策略迭代算法求解MDP马尔可夫决策过程

007-马尔可夫决策MDP过程讲解，新手也能看懂！

POMDP很好的例子分享

024-一张图，但讲懂马尔可夫决策过程

012-价值迭代算法求解MDP马尔可夫决策过程

RSS 2021 - MAGIC: 为在线POMDP规划算法学习宏观的行为 - Spotlight Talk 57（中文/英文字幕）

一题速成MDP价值迭代 马尔可夫决策过程value-iteration算法 人工智能

【RLChina论文研讨会】第34期 尤扬 POMDP与Dec-POMDP问题的精确与近似解法

【10分钟学完2小时课程】伯克利cs188 马尔科夫决策过程 (MDP

[pytorch 强化学习] 11 逐行写代码实现 DQN（ReplayMemory，Transition，DQN as Q function）

[pytorch 强化学习] 01 认识环境（environment，gym.Env）以及 CartPole-v0/v1 环境

POMDP讲解

[强化学习知识、公式推导、代码讲解]1. 马尔可夫决策过程MDP

64.POMDP中的价值迭代

POMDP Introduction

[pytorch 强化学习] 02 将 env rendering 保存为 mp4/gif（以 CartPole 为例，mode='rgb_array'）

[概率 & 统计] Thompson Sampling（随机贝叶斯后验采样）与多臂老虎机

[pytorch 强化学习] 10 从 Q Learning 到 DQN（experience replay 与 huber loss / smooth L1）

【Coursera】Decision Making and Reinforcement Learning by Tony Dear 决策和强化学习

[强化学习基础 03] 多臂老虎机（Multi-Armed Bandit）与 UCB

[pytorch 强化学习] 06 迷宫环境（maze environment）SARSA（Q-table，value iteration）求解

[diffusion] 生成模型基础 VAE 原理及实现

[pytorch 强化学习] 13 基于 pytorch 神经网络实现 policy gradient（REINFORCE）求解 CartPole

[pytorch 强化学习] 09 （逐行写代码）CartPole Q learning 基于连续状态离散化（digitize 分桶）

[强化学习基础 02] MDP价值迭代算法（value iteration，V(s), Q(s,a), pi(s)）

[pytorch 强化学习] 12 逐行写代码实现 DQN 完全体

[DRL] 从 TRPO 到 PPO（PPO-penalty，PPO-clip）

[DRL] 从策略梯度到 TRPO（Lagrange Duality，拉格朗日对偶性）

[mcts] 01 mcts 基本概念基本原理（UCB）及两个示例

[手推公式] sigmoid 及其导数 softmax 及其导数性质（从 logits 到 probabilities）

[统计] python 假设检验基础（T-Test，ANOVA，chi2）

[pytorch 番外] Tensorboard 与计算图初步（算子与 ATen）

[pytorch] F.binary_cross_entropy（二分类） 与 F.cross_entropy（多分类）

[凸函数] convex 性质与简森不等式（jensen's inequality）与 ELBO、投资组合理论（Porfolio）

一题速成MDP价值迭代马尔可夫决策过程value-iteration算法人工智能

【RLChina论文研讨会】第34期尤扬 POMDP与Dec-POMDP问题的精确与近似解法

[pytorch] F.binary_cross_entropy（二分类）与 F.cross_entropy（多分类）