[强化学习基础 02] MDP价值迭代算法（value iteration，V(s), Q(s,a), pi(s)）

发布人

本期 code：https://github.com/chunhuizhang/personal_chatgpt/blob/main/tutorials/drl/mdps_value_iteration.ipynb
MDP 基础：BV1V94y1E7Pi

打开封面下载高清视频观看高清视频视频下载器

[强化学习基础 03] 多臂老虎机（Multi-Armed Bandit）与 UCB

[pytorch 强化学习] 07 迷宫环境（maze environment）Q Learning（value iteration）求解（策略关闭 off）

[强化学习基础 01] MDP 基础（概率转移，与POMDP、I-POMDP）

[pytorch 强化学习] 06 迷宫环境（maze environment）SARSA（Q-table，value iteration）求解

【统计学】从置信水平（confidence level，置信区间）、Z值到最小采样数（最小抽样数）

【数值计算】牛顿迭代法（Newton's method，Newton-Raphson method，牛顿-拉夫逊（拉弗森））计算二次方根（sqrt）三次方根

[pytorch 强化学习] 02 将 env rendering 保存为 mp4/gif（以 CartPole 为例，mode='rgb_array'）

[pytorch 强化学习] 11 逐行写代码实现 DQN（ReplayMemory，Transition，DQN as Q function）

[pytorch 强化学习] 01 认识环境（environment，gym.Env）以及 CartPole-v0/v1 环境

[pytorch 强化学习] 10 从 Q Learning 到 DQN（experience replay 与 huber loss / smooth L1）

【深度学习环境搭建】01 本机、GPU服务器端深度学习环境搭建（代码、数据共享）

【统计学】p-value（p值）与 z-score（标准分/z得分/z分数）定义，计算以及适用场景

【机器学习】线性回归（linear regression）逻辑回归（logistics regression）特征重要性与 odds ratio

[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader（mnist、fashionmnist、cifar10）

【手推公式】logistic regression 及其与 linear regression 的区别，对数线性与对数几率

[pytorch 强化学习] 12 逐行写代码实现 DQN 完全体

【矩阵分析】从特征值特征向量到矩阵SVD奇异值分解（np.linalg.svd）

[LangChain] 03 LangGraph 基本概念（AgentState、StateGraph，nodes，edges）

【Python 运筹实战】指派问题assignment problem| 匈牙利算法（Hungarian algorithm）| scipy.optimize

【手推公式】从二分类到多分类，从sigmoid到softmax，从最大似然估计到 cross entropy

[pytorch 强化学习] 03 动手写迷宫环境（maze env）状态及动作策略初步（及动画保存）

[动手写 Transformer] 手动实现 Transformer Decoder（交叉注意力，encoder-decoder cross attentio）

【高阶数据结构】布隆过滤器（Bloom Filter）误识别（false positive，伪阳）概率的计算

[pytorch distributed] 张量并行与 megtron-lm 及 accelerate 配置

[LLMs 实践] 02 LoRA（Low Rank Adaption）基本原理与基本概念，fine-tune 大语言模型

【数字图像处理】前景背景分割GrabCut实现（python-opencv）类似PhotoShop抠图的功能

【数据可视化】【excel】漏斗分析-漏斗图（funnel）与金字塔图（pyramid）的区别和联系

[BERT 番外] Sin Position Encoding 的简洁实现（RoPE 基础）

[调包侠] 使用深度学习模型（paddlehub - humanseg）进行人物提取（前景提取、抠图）

【运筹优化】CSP（约束满足最优化）| CP-SAT | domain reduction | constraint propagation

【搜索算法】【search】02 爬山算法（hill climbing）二维离散空间上的邻域搜索

[pytorch 强化学习] 05 迷宫环境（maze environment）策略梯度（Policy Gradient）求解

[全栈算法工程师] 用 subprocess.Popen 执行 linux 命令

[动手写神经网络] 手动实现 Transformer Encoder

[LLM && AIGC] 04 深入理解 openai tokenizer 及 api 中的 logit_bias 与 logprobs

【会计】个人所得税速算扣除数的计算及推导

[pytorch 强化学习] 09 （逐行写代码）CartPole Q learning 基于连续状态离散化（digitize 分桶）

[LLMs tuning] 03 llama3-8B instruct SFT on Financial RAG

[调包侠] tencent ailab 中文语料 embedding vector（word2vec）

【excel数据分析】幂律分布拟合城市GDP（幂律分布 vs. 指数分布 vs. 线性拟合 vs. 多项式拟合）

[强化学习基础 02] MDP价值迭代算法（value iteration，V(s), Q(s,a), pi(s)）

[强化学习基础 03] 多臂老虎机（Multi-Armed Bandit）与 UCB

[pytorch 强化学习] 07 迷宫环境（maze environment）Q Learning（value iteration）求解（策略关闭 off）

[强化学习基础 01] MDP 基础（概率转移，与POMDP、I-POMDP）

[pytorch 强化学习] 06 迷宫环境（maze environment）SARSA（Q-table，value iteration）求解

【统计学】从置信水平（confidence level，置信区间）、Z值到最小采样数（最小抽样数）

【数值计算】牛顿迭代法（Newton's method，Newton-Raphson method，牛顿-拉夫逊（拉弗森））计算二次方根（sqrt）三次方根

[pytorch 强化学习] 02 将 env rendering 保存为 mp4/gif（以 CartPole 为例，mode='rgb_array'）

[pytorch 强化学习] 11 逐行写代码实现 DQN（ReplayMemory，Transition，DQN as Q function）

[pytorch 强化学习] 01 认识环境（environment，gym.Env）以及 CartPole-v0/v1 环境

[pytorch 强化学习] 10 从 Q Learning 到 DQN（experience replay 与 huber loss / smooth L1）

【深度学习环境搭建】01 本机、GPU服务器端深度学习环境搭建（代码、数据共享）

【统计学】p-value（p值） 与 z-score（标准分/z得分/z分数）定义，计算以及适用场景

【机器学习】线性回归（linear regression）逻辑回归（logistics regression）特征重要性与 odds ratio

[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader（mnist、fashionmnist、cifar10）

【手推公式】logistic regression 及其与 linear regression 的区别，对数线性与对数几率

[pytorch 强化学习] 12 逐行写代码实现 DQN 完全体

【矩阵分析】从特征值特征向量到矩阵SVD奇异值分解（np.linalg.svd）

[LangChain] 03 LangGraph 基本概念（AgentState、StateGraph，nodes，edges）

【Python 运筹实战】指派问题assignment problem| 匈牙利算法（Hungarian algorithm）| scipy.optimize

【手推公式】从二分类到多分类，从sigmoid到softmax，从最大似然估计到 cross entropy

[pytorch 强化学习] 03 动手写迷宫环境（maze env）状态及动作策略初步（及动画保存）

[动手写 Transformer] 手动实现 Transformer Decoder（交叉注意力，encoder-decoder cross attentio）

【高阶数据结构】布隆过滤器（Bloom Filter）误识别（false positive，伪阳）概率的计算

[pytorch distributed] 张量并行与 megtron-lm 及 accelerate 配置

[LLMs 实践] 02 LoRA（Low Rank Adaption）基本原理与基本概念，fine-tune 大语言模型

【数字图像处理】前景背景分割GrabCut实现（python-opencv）类似PhotoShop抠图的功能

【数据可视化】【excel】漏斗分析-漏斗图（funnel）与金字塔图（pyramid）的区别和联系

[BERT 番外] Sin Position Encoding 的简洁实现（RoPE 基础）

[调包侠] 使用深度学习模型（paddlehub - humanseg）进行人物提取（前景提取、抠图）

【运筹优化】CSP（约束满足最优化）| CP-SAT | domain reduction | constraint propagation

【搜索算法】【search】02 爬山算法（hill climbing）二维离散空间上的邻域搜索

[pytorch 强化学习] 05 迷宫环境（maze environment）策略梯度（Policy Gradient）求解

[全栈算法工程师] 用 subprocess.Popen 执行 linux 命令

[动手写神经网络] 手动实现 Transformer Encoder

[LLM && AIGC] 04 深入理解 openai tokenizer 及 api 中的 logit_bias 与 logprobs

【会计】个人所得税速算扣除数的计算及推导

[pytorch 强化学习] 09 （逐行写代码）CartPole Q learning 基于连续状态离散化（digitize 分桶）

[LLMs tuning] 03 llama3-8B instruct SFT on Financial RAG

[调包侠] tencent ailab 中文语料 embedding vector（word2vec）

【excel数据分析】幂律分布拟合城市GDP（幂律分布 vs. 指数分布 vs. 线性拟合 vs. 多项式拟合）

【统计学】p-value（p值）与 z-score（标准分/z得分/z分数）定义，计算以及适用场景