V
主页
强化学习的数学原理:课程背后的故事+输出到海外
发布人
本视频介绍了《强化学习的数学原理》这个公开课和教材背后有趣的故事;也介绍了最近发布的英文版公开课视频。 课程视频网址:https://www.bilibili.com/video/BV1sd4y167NS/?share_source=copy_web&vd_source=3a9b47c1cd49d93e96fd9b651d5b6aa4; 课程介绍网址:https://zhuanlan.zhihu.com/p/567743051; 书和PPT下载网址:https://github.com/MathFoundationRL
打开封面
下载高清视频
观看高清视频
视频下载器
【强化学习的数学原理】课程:从零开始到透彻理解(完结)
【强化学习】一小时完全入门
【莫烦Python】强化学习 Reinforcement Learning
第7课-时序差分方法(Part1-例子)【强化学习的数学原理】
RL vs MPC,LeCun:MPC,胜!我不看好强化学习
第9课-策略梯度方法(Part5-梯度上升算法和REINFORCE)【强化学习的数学原理】
从模型预测控制到强化学习-5:Q-learning(通透梳理版)
第1课-基本概念(Part1-State,action,policy等)【强化学习的数学原理】
第6课-随机近似与随机梯度下降(Part1-通过例子介绍Iterative mean estimation)【强化学习的数学原理】
第2课-贝尔曼公式(Part3-公式的详细推导)【强化学习的数学原理】
第4课-值迭代与策略迭代(Part3-截断策略迭代算法)【强化学习的数学原理】
第1课-基本概念(Part2-Reward,return,MDP等)【强化学习的数学原理】
第10课-Actor-Critic方法(Part2-Advantage Actor-Critic (A2C))【强化学习的数学原理】
第9课-策略梯度方法(Part1-该方法的基本思路)【强化学习的数学原理】
第10课-Actor-Critic方法(Part3-重要性采样和Off-Policy Actor-Critic)【强化学习的数学原理】
第7课-时序差分方法(Part2-TD算法介绍)【强化学习的数学原理】
第2课-贝尔曼公式(Part1-例子说明Return的重要性)【强化学习的数学原理】
第10课-Actor-Critic方法(Part1-最简单的Actor-Critic (QAC))【强化学习的数学原理】
强化学习的一个有趣例子
硕士生去搞计算机视觉,是纯纯的脑瘫行为!
世界冠军带你从零实践强化学习
第2课-贝尔曼公式(Part4-公式向量形式与求解)【强化学习的数学原理】
[Nature Communications] 无私探索大幅提升合作效率:基于均值偏移的机器人集群队形控制策略
第5课-蒙特卡洛方法(Part1-通过例子介绍蒙特卡洛)【强化学习的数学原理】
第10课-Actor-Critic方法(Part5-再见)【强化学习的数学原理】
不愧是李宏毅老师讲的【强化学习】简直太详细!!!导师不教你的,李宏毅老师亲自教你,这还不赶紧学起来!!!-人工智能/强化算法/机器学习
强化学习基础 (本科生课程) 北京邮电大学 鲁鹏
第3课-贝尔曼最优公式(Part4-最优策略的有趣性质)【强化学习的数学原理】
【王树森】深度强化学习(DRL)
[NJP-2023] 捕食者-猎物生存本能足以涌现集群行为
第10课-Actor-Critic方法(Part4-Deterministic Actor-Critic (DPG))【强化学习的数学原理】
【研究进展】复杂场景下基于外观和运动信息的无人机检测
深度强化学习 DQN 纯白板逐行代码Python实现
在校生代表陈思媛:从中学到大学,我看见了什么?|西湖大学2024级本科生开学典礼
教授代表陈华一致辞:人工智能时代,什么知识在毕业时不会过时?|西湖大学2024级本科生开学典礼
[NJP-2024] 一种基于视觉注意力机制的集群邻居选择模型
00 预告【动手学深度学习v2】
【强化学习训练走路的机器人】油管最强动画强化学习入门!不愧是MATLAB官方教程,行走机器人|深度学习|AI 人工智能
赵世珏:多机器人队形控制——从理论到实践
[IEEE-TASE-2023] 基于ESO的空中作业机器人鲁棒高精度跟踪控制