V
主页
京东 11.11 红包
14.价值函数
发布人
强化学习,又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题
打开封面
下载高清视频
观看高清视频
视频下载器
39.DQN算法
16.模型
10.RL怎么办到的:试错探索
7.强化学习与其他机器学习的关系
18.Model-free:试错探索
3.强化学习应用案例—游戏
8.强化学习与其他机器学习的区别
17.Model-based:状态转移与序列决策
2.什么是强化学习-2
13.Agent的决策方式:value-based
15.Agent的决策方式:policy-based
5.强化学习应用案例—股票
9.强化学习与监督学习的区别
44.策略梯度
1.什么是强化学习-1
23.Q表格
27.Temporal Difference 时序差分(TD单步更新)
29.实验:悬崖行走问题
28.SARSA
42.随机策略
30.Q-learning之Off-Policy
37.DQN两大创新点
32.实验:Q-Learning算法
41.强化学习的组成部分
14.Diffusion模型的基本原理
33.为什么需要神经网络
复现human2humanoid
45.PG实现技巧
38.目标网络
36.DQN=Q-learning+神经网络
50.实验:DDPG倒立摆问题
40.实验:DQN-车杆问题
22.经典控制问题
双热点强强联合的发文方向:Transformer+强化学习!
MPC+强化学习!Actor Critic模型预测控制,苏黎世大牛教授人类水平性能的自主视觉无人机演讲
Transformer+强化学习成为双热点强强联合的发文方向
1.算力的概念及量纲
强推!这绝对是B站最全的(python+机器学习+深度学习)系列教程,草履虫都能学会,学不会你来锤爆我!人工智能/机器学习/深度学习/python/神经网络
25.巴普洛夫的条件反射实验
斯坦福大学《强化学习|Stanford CS234 Reinforcement Learning 2024》deepseek翻译