强化学习 - 第十三讲 - 策略控制的基本设定 - 视频下载 Video Downloader

京东 11.11 红包

强化学习 - 第十三讲 - 策略控制的基本设定

发布人

《强化学习二十一讲》的第十三课，介绍在模型无关的策略控制的基本设定。
视频取材自复旦大学 大数据学院 本科专业课《人工智能》的第三个模块。
课程获得复旦大学青年教师教学比赛一等奖。

课程由复旦大学数据智能与社会计算实验室推出。
实验室主页：www.fudan-disc.com
微信公众号：复旦DISC

打开封面下载高清视频观看高清视频视频下载器

强化学习 - 第十六讲 - 无模型设定 - 策略控制的时序差分方法

强化学习 - 第十讲 - 模型无关的策略评估 - 蒙特卡洛算法

强化学习 - 第九讲 - 基于模型的强化学习方法

强化学习 - 第三讲 - 马尔可夫决策过程样例

强化学习 - 第十五讲 - 策略控制下的策略提升 -蒙特卡洛方法

强化学习 - 第六讲 - 马尔可夫决策过程的策略评估

强化学习 - 第四讲 - 马尔可夫决策过程的值迭代算法

强化学习 - 第五讲 - 期望最大搜索树中的值迭代

强化学习 - 第二讲 - 马尔可夫决策过程

强化学习 - 第十一讲 - 模型无关的策略评估 - 时序差分算法

强化学习 - 第二十讲 - 值函数近似的策略评估 - 蒙特卡洛和时序差分

强化学习二十一讲（合集17-21） - 值近似的强化学习方法

用7年前的显卡在那跑强化学习 issacgym

强化学习 - 第十四讲 - 策略控制下的策略评估 -蒙特卡洛方法

强化学习二十一讲（合集1-7）- 有模型的强化学习方法 - 马尔科夫决策过程

强化学习 - 第十二讲 - 模型无关的强化学习 - 算法比较

强化学习 - 第二十一讲 - 值函数近似的策略控制及强化学习总结

强化学习 - 第十七讲 - 值近似的方法 - 状态的泛化

强化学习 - 第一讲 - 序列决策问题

MPC+强化学习！Actor Critic模型预测控制，苏黎世大牛教授人类水平性能的自主视觉无人机演讲

强化学习 - 第七讲 - 马尔可夫模型的策略迭代

强化学习二十一讲（8-16合集） - 无模型的强化学习算法

《强化学习》第4.4-4.8章策略更新规则（下）

【MPC+强化学习】四大名校教授精讲强化学习和模型预测控制18讲！Actor Critic模型预测控制、策略梯度方法

强化学习四足机器人二

强化学习- 第十九讲 - 值近似方法 - 值函数近似的策略评估

基于安全区域强化学习的狭窄空间阿克曼机器人自探索

强化学习 - 第八讲 - 无模型的问题设定

TITA强化学习迁移

科技发展靠游戏？

元强化学习控制车辆模型自动化驾驶模型

强化学习四足机器人一

强化学习 - 第十八讲 - 值函数近似方法

issacgym 训练400次的效果强化学习人形

【基于深度强化学习的冠军级别无人机竞速】强化学习和模型预测控制MPC中英字幕18讲！

【具身论文阅读】Diffuser: 基于diffusion的强化学习规划器

强推！北京大学王树森半天就教会了我深度强化学习，原理详解+项目实战，学不会来打我！

具身智能新思路———Diffusion Policy 结合 PPO 模仿+强化（上）

【即插即用】Pybullet端强化学习算法训练机械臂

基于强化学习的笼式抓握与评估