V
主页
京东 11.11 红包
强化学习 - 第十三讲 - 策略控制的基本设定
发布人
《强化学习二十一讲》的第十三课,介绍在模型无关的策略控制的基本设定。 视频取材自复旦大学 大数据学院 本科专业课《人工智能》的第三个模块。 课程获得复旦大学青年教师教学比赛一等奖。 课程由复旦大学数据智能与社会计算实验室推出。 实验室主页:www.fudan-disc.com 微信公众号:复旦DISC
打开封面
下载高清视频
观看高清视频
视频下载器
强化学习 - 第十六讲 - 无模型设定 - 策略控制的时序差分方法
强化学习 - 第十讲 - 模型无关的策略评估 - 蒙特卡洛算法
强化学习 - 第九讲 - 基于模型的强化学习方法
强化学习 - 第三讲 - 马尔可夫决策过程样例
强化学习 - 第十五讲 - 策略控制下的策略提升 -蒙特卡洛方法
强化学习 - 第六讲 - 马尔可夫决策过程的策略评估
强化学习 - 第四讲 - 马尔可夫决策过程的值迭代算法
强化学习 - 第五讲 - 期望最大搜索树中的值迭代
强化学习 - 第二讲 - 马尔可夫决策过程
强化学习 - 第十一讲 - 模型无关的策略评估 - 时序差分算法
强化学习 - 第二十讲 - 值函数近似的策略评估 - 蒙特卡洛和时序差分
强化学习二十一讲(合集17-21) - 值近似的强化学习方法
用7年前的显卡在那跑强化学习 issacgym
强化学习 - 第十四讲 - 策略控制下的策略评估 -蒙特卡洛方法
强化学习二十一讲(合集1-7)- 有模型的强化学习方法 - 马尔科夫决策过程
强化学习 - 第十二讲 - 模型无关的强化学习 - 算法比较
强化学习 - 第二十一讲 - 值函数近似的策略控制及强化学习总结
强化学习 - 第十七讲 - 值近似的方法 - 状态的泛化
强化学习 - 第一讲 - 序列决策问题
MPC+强化学习!Actor Critic模型预测控制,苏黎世大牛教授人类水平性能的自主视觉无人机演讲
强化学习 - 第七讲 - 马尔可夫模型的策略迭代
强化学习二十一讲(8-16合集) - 无模型的强化学习算法
《强化学习》第4.4-4.8章 策略更新规则(下)
【MPC+强化学习】四大名校教授精讲强化学习和模型预测控制18讲!Actor Critic模型预测控制、策略梯度方法
强化学习四足机器人二
强化学习- 第十九讲 - 值近似方法 - 值函数近似的策略评估
基于安全区域强化学习的狭窄空间阿克曼机器人自探索
强化学习 - 第八讲 - 无模型的问题设定
TITA强化学习迁移
科技发展靠游戏?
元强化学习控制车辆模型 自动化驾驶模型
强化学习四足机器人一
强化学习 - 第十八讲 - 值函数近似方法
issacgym 训练400次的效果 强化学习 人形
【基于深度强化学习的冠军级别无人机竞速】强化学习和模型预测控制MPC中英字幕18讲!
【具身论文阅读】Diffuser: 基于diffusion的强化学习规划器
强推!北京大学王树森半天就教会了我深度强化学习,原理详解+项目实战,学不会来打我!
具身智能新思路———Diffusion Policy 结合 PPO 模仿+强化 (上)
【即插即用】Pybullet端强化学习算法训练机械臂
基于强化学习的笼式抓握与评估