V
主页
[强化学习基础 01] MDP 基础(概率转移,与POMDP、I-POMDP)
发布人
本期 code:https://github.com/chunhuizhang/personal_chatgpt/blob/main/tutorials/drl/mdp_basics.ipynb
打开封面
下载高清视频
观看高清视频
视频下载器
【强化学习】马尔科夫决策过程【白板推导系列】
快被强化学习劝退了
【强化学习的数学原理】课程:从零开始到透彻理解(完结)
【莫烦Python】强化学习 Reinforcement Learning
【王树森】深度强化学习(DRL)
013-策略迭代算法求解MDP马尔可夫决策过程
007-马尔可夫决策MDP过程讲解,新手也能看懂!
POMDP很好的例子分享
024-一张图,但讲懂马尔可夫决策过程
012-价值迭代算法求解MDP马尔可夫决策过程
RSS 2021 - MAGIC: 为在线POMDP规划算法学习宏观的行为 - Spotlight Talk 57(中文/英文字幕)
一题速成MDP价值迭代 马尔可夫决策过程value-iteration算法 人工智能
【RLChina论文研讨会】第34期 尤扬 POMDP与Dec-POMDP问题的精确与近似解法
【10分钟学完2小时课程】伯克利cs188 马尔科夫决策过程 (MDP
[pytorch 强化学习] 11 逐行写代码实现 DQN(ReplayMemory,Transition,DQN as Q function)
[pytorch 强化学习] 01 认识环境(environment,gym.Env)以及 CartPole-v0/v1 环境
POMDP讲解
[强化学习知识、公式推导、代码讲解]1. 马尔可夫决策过程MDP
64.POMDP中的价值迭代
POMDP Introduction
[pytorch 强化学习] 02 将 env rendering 保存为 mp4/gif(以 CartPole 为例,mode='rgb_array')
[概率 & 统计] Thompson Sampling(随机贝叶斯后验采样)与多臂老虎机
[pytorch 强化学习] 10 从 Q Learning 到 DQN(experience replay 与 huber loss / smooth L1)
【Coursera】Decision Making and Reinforcement Learning by Tony Dear 决策和强化学习
[强化学习基础 03] 多臂老虎机(Multi-Armed Bandit)与 UCB
[pytorch 强化学习] 06 迷宫环境(maze environment)SARSA(Q-table,value iteration)求解
[diffusion] 生成模型基础 VAE 原理及实现
[pytorch 强化学习] 13 基于 pytorch 神经网络实现 policy gradient(REINFORCE)求解 CartPole
[pytorch 强化学习] 09 (逐行写代码)CartPole Q learning 基于连续状态离散化(digitize 分桶)
[强化学习基础 02] MDP价值迭代算法(value iteration,V(s), Q(s,a), pi(s))
[pytorch 强化学习] 12 逐行写代码实现 DQN 完全体
[DRL] 从 TRPO 到 PPO(PPO-penalty,PPO-clip)
[DRL] 从策略梯度到 TRPO(Lagrange Duality,拉格朗日对偶性)
[mcts] 01 mcts 基本概念基本原理(UCB)及两个示例
[手推公式] sigmoid 及其导数 softmax 及其导数性质(从 logits 到 probabilities)
[统计] python 假设检验基础(T-Test,ANOVA,chi2)
[pytorch 番外] Tensorboard 与计算图初步(算子与 ATen)
[pytorch] F.binary_cross_entropy(二分类) 与 F.cross_entropy(多分类)
[凸函数] convex 性质与简森不等式(jensen's inequality)与 ELBO、投资组合理论(Porfolio)