[pytorch 强化学习] 06 迷宫环境（maze environment）SARSA（Q-table，value iteration）求解 - 视频下载 Video Downloader

[pytorch 强化学习] 06 迷宫环境（maze environment）SARSA（Q-table，value iteration）求解

发布人

本期code：https://github.com/chunhuizhang/bilibili_vlogs/blob/master/rl/tutorials/05_value_iteration_sarsa.ipynb
迷宫环境：https://www.bilibili.com/video/BV1Ye411P7Sw/?spm_id_from=333.999.0.0
系列视频：https://www.bilibili.com/video/BV1tP411M7dT/?spm_id_from=333.999.0.0

打开封面下载高清视频观看高清视频视频下载器

[pytorch 强化学习] 07 迷宫环境（maze environment）Q Learning（value iteration）求解（策略关闭 off）

[pytorch 强化学习] 01 认识环境（environment，gym.Env）以及 CartPole-v0/v1 环境

[pytorch 强化学习] 03 动手写迷宫环境（maze env）状态及动作策略初步（及动画保存）

太完整了！我居然3天时间就掌握了【机器学习+深度学习+强化学习+PyTorch】理论到实战，多亏了这个课程，绝对通俗易懂纯干货分享！

[pytorch 强化学习] 11 逐行写代码实现 DQN（ReplayMemory，Transition，DQN as Q function）

[pytorch 强化学习] 05 迷宫环境（maze environment）策略梯度（Policy Gradient）求解

RLHF基于人类反馈的强化学习动画讲解（LLM）

[强化学习基础 01] MDP 基础（概率转移，与POMDP、I-POMDP）

[RLHF] 从 PPO rlhf 到 DPO，公式推导与原理分析

[pytorch 强化学习] 02 将 env rendering 保存为 mp4/gif（以 CartPole 为例，mode='rgb_array'）

[pytorch 强化学习] 10 从 Q Learning 到 DQN（experience replay 与 huber loss / smooth L1）

强化学习魅力时刻

这应该是你能找到的讲解最系统全面的【强化学习】教程！北大出身王树森教授从零到一保姆式教学，小白也能很好懂！

[pytorch 强化学习] 04 迷宫环境（maze environment）封装 MazeEnv、Agent 类

[强化学习基础 02] MDP价值迭代算法（value iteration，V(s), Q(s,a), pi(s)）

通俗理解大模型从预训练到微调实战！P-Tuning微调、Lora-QLora、RLHF基于人类反馈的强化学习

强推！2024年最适合初学者入门学习的《机器学习+深度学习+强化学习》上海交大和腾讯强强联合打造！太全面了！

【2024汽车年会】大数据和人工智能：从系统辨识到AI建模从最优控制到强化学习

CV强化论文分享20241018-1

Lec9: 强化学习的概率论基础Review（世界是确定的，条件概率，条件期望，towering property）

【深度学习环境搭建】01 本机、GPU服务器端深度学习环境搭建（代码、数据共享）

[pytorch 强化学习] 12 逐行写代码实现 DQN 完全体

CV强化论文分享20241025-01

[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader（mnist、fashionmnist、cifar10）

【深度学习环境搭建】02 gpu 服务器端部署 jupyter notebook server

Diffusion Policy 结合 PPO 模仿+强化（下）

强推！我竟然半天就学会了【强化学习】！（PPO、Q-learning、DQN、A3C）算法原理及实战教你用A3C玩转超级马里奥！（深度强化学习/强化学习入门）

[pytorch 强化学习] 13 基于 pytorch 神经网络实现 policy gradient（REINFORCE）求解 CartPole

吹爆！不愧是李宏毅老师！2024公认最详细的【强化学习教程】通俗易懂！导师不教你的，李宏毅老师亲自教你，这还不赶紧学起来!!!人工智能|强化学习|机器学习

强化学习，启动！

[数值计算] 快速计算、秒算大数乘除运算，对数变换将乘除变为加减，再通过查表（logarithm table）获得10-99之间的对数值

【对新手非常友好】三小时深度学习PyTorch快速入门！包教会你的！ --人工智能/深度学习/pytorch

每个初学深度学习的小伙伴只需要学这三个项目！学完以后可以说没有什么深度学习代码能够难住你！

这才是小白该学的AI入门教程！上交大教授系统解读【机器学习】+【深度学习】+【强化学习】入门及实战，绝对通俗易懂！

强化小伙终于起立了

[数值计算] 快速计算、妙算对数，之对数表（logarithm table）的使用，如何将任意一个数转换为10-99，或0-0.99之间的可查表形式

[pytorch] [求导练习] 06 计算图（computation graph）细节之 retain graph（multi output/backwar）

不愧是顶会收割机！迪哥精讲强化学习4大主流算法：PPO、Q-learning、DQN、A3C 50集入门到精通！

简单粗暴！1小时理解大模型预训练和微调！了解四大LLM微调方法，大模型所需NLP基础知识，基于人类反馈的强化学习、P-Tuning微调、Lora-QLora

小派上楼梯啦|双足机器人强化学习