V
主页
[pytorch 强化学习] 06 迷宫环境(maze environment)SARSA(Q-table,value iteration)求解
发布人
本期code:https://github.com/chunhuizhang/bilibili_vlogs/blob/master/rl/tutorials/05_value_iteration_sarsa.ipynb 迷宫环境:https://www.bilibili.com/video/BV1Ye411P7Sw/?spm_id_from=333.999.0.0 系列视频:https://www.bilibili.com/video/BV1tP411M7dT/?spm_id_from=333.999.0.0
打开封面
下载高清视频
观看高清视频
视频下载器
[pytorch 强化学习] 07 迷宫环境(maze environment)Q Learning(value iteration)求解(策略关闭 off)
[pytorch 强化学习] 01 认识环境(environment,gym.Env)以及 CartPole-v0/v1 环境
[pytorch 强化学习] 03 动手写迷宫环境(maze env)状态及动作策略初步(及动画保存)
太完整了!我居然3天时间就掌握了【机器学习+深度学习+强化学习+PyTorch】理论到实战,多亏了这个课程,绝对通俗易懂纯干货分享!
[pytorch 强化学习] 11 逐行写代码实现 DQN(ReplayMemory,Transition,DQN as Q function)
[pytorch 强化学习] 05 迷宫环境(maze environment)策略梯度(Policy Gradient)求解
RLHF基于人类反馈的强化学习动画讲解(LLM)
[强化学习基础 01] MDP 基础(概率转移,与POMDP、I-POMDP)
[RLHF] 从 PPO rlhf 到 DPO,公式推导与原理分析
[pytorch 强化学习] 02 将 env rendering 保存为 mp4/gif(以 CartPole 为例,mode='rgb_array')
[pytorch 强化学习] 10 从 Q Learning 到 DQN(experience replay 与 huber loss / smooth L1)
强化学习魅力时刻
这应该是你能找到的讲解最系统全面的【强化学习】教程!北大出身王树森教授从零到一保姆式教学,小白也能很好懂!
[pytorch 强化学习] 04 迷宫环境(maze environment)封装 MazeEnv、Agent 类
[强化学习基础 02] MDP价值迭代算法(value iteration,V(s), Q(s,a), pi(s))
通俗理解大模型从预训练到微调实战!P-Tuning微调、Lora-QLora、RLHF基于人类反馈的强化学习
强推!2024年最适合初学者入门学习的《机器学习+深度学习+强化学习》上海交大和腾讯强强联合打造!太全面了!
【2024汽车年会】大数据和人工智能:从系统辨识到AI建模 从最优控制到强化学习
CV强化论文分享20241018-1
Lec9: 强化学习的概率论基础Review(世界是确定的,条件概率,条件期望,towering property)
【深度学习环境搭建】01 本机、GPU服务器端深度学习环境搭建(代码、数据共享)
[pytorch 强化学习] 12 逐行写代码实现 DQN 完全体
CV强化论文分享20241025-01
[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader(mnist、fashionmnist、cifar10)
【深度学习环境搭建】02 gpu 服务器端部署 jupyter notebook server
Diffusion Policy 结合 PPO 模仿+强化 (下)
强推!我竟然半天就学会了【强化学习】!(PPO、Q-learning、DQN、A3C)算法原理及实战教你用A3C玩转超级马里奥!(深度强化学习/强化学习入门)
[pytorch 强化学习] 13 基于 pytorch 神经网络实现 policy gradient(REINFORCE)求解 CartPole
吹爆!不愧是李宏毅老师!2024公认最详细的【强化学习教程】通俗易懂!导师不教你的,李宏毅老师亲自教你,这还不赶紧学起来!!!人工智能|强化学习|机器学习
强化学习,启动!
[数值计算] 快速计算、秒算大数乘除运算,对数变换将乘除变为加减,再通过查表(logarithm table)获得10-99之间的对数值
【对新手非常友好】三小时深度学习PyTorch快速入门!包教会你的! --人工智能/深度学习/pytorch
每个初学深度学习的小伙伴只需要学这三个项目!学完以后可以说没有什么深度学习代码能够难住你!
这才是小白该学的AI入门教程!上交大教授系统解读【机器学习】+【深度学习】+【强化学习】入门及实战,绝对通俗易懂!
强化小伙终于起立了
[数值计算] 快速计算、妙算对数,之对数表(logarithm table)的使用,如何将任意一个数转换为10-99,或0-0.99之间的可查表形式
[pytorch] [求导练习] 06 计算图(computation graph)细节之 retain graph(multi output/backwar)
不愧是顶会收割机!迪哥精讲强化学习4大主流算法:PPO、Q-learning、DQN、A3C 50集入门到精通!
简单粗暴!1小时理解大模型预训练和微调!了解四大LLM微调方法,大模型所需NLP基础知识,基于人类反馈的强化学习、P-Tuning微调、Lora-QLora
小派上楼梯啦|双足机器人强化学习