V
主页
第1课-基本概念(Part1-State,action,policy等)【强化学习的数学原理】
发布人
欢迎大家来到西湖大学赵世钰老师的【强化学习的数学原理】课程。这门课程从零开始、从数学角度、结合大量例子、循序渐进地揭示强化学习的本质原理。如果你学习的时候喜欢刨根问底“知其然并知其所以然”,那么这个课程能很好地帮助你透彻理解强化学习!几点说明:1)我们制作了软字幕,欢迎大家打开字幕。2)PPT为英文,因为对应的线下课程和书籍都是英文。PPT背景颜色设置为护眼灰。3)课程介绍网址:https://zhuanlan.zhihu.com/p/567743051;书和PPT下载网址:https://github.com/MathFoundationRL
打开封面
下载高清视频
观看高清视频
视频下载器
【强化学习的数学原理】课程:从零开始到透彻理解(完结)
太完整了!我居然3天时间就掌握了【机器学习+深度学习+强化学习+PyTorch】理论到实战,多亏了这个课程,绝对通俗易懂纯干货分享!
第5课-蒙特卡洛方法(Part1-通过例子介绍蒙特卡洛)【强化学习的数学原理】
强推!2024年最适合初学者入门学习的《机器学习+深度学习+强化学习》上海交大和腾讯强强联合打造!太全面了!
第6课-随机近似与随机梯度下降(Part1-通过例子介绍Iterative mean estimation)【强化学习的数学原理】
第1课-基本概念(Part2-Reward,return,MDP等)【强化学习的数学原理】
第9课-策略梯度方法(Part1-该方法的基本思路)【强化学习的数学原理】
第7课-时序差分方法(Part1-例子)【强化学习的数学原理】
第3课-贝尔曼最优公式(Part1-例子-如何改进策略)【强化学习的数学原理】
【2024汽车年会】大数据和人工智能:从系统辨识到AI建模 从最优控制到强化学习
第6课-随机近似与随机梯度下降(Part2-Robbins-Monro算法介绍与例子)【强化学习的数学原理】
第2课-贝尔曼公式(Part3-公式的详细推导)【强化学习的数学原理】
第8课-值函数近似(Part4-原理-示例与分析)【强化学习的数学原理】
【一张图讲完强化学习原理】 30分钟了解强化学习的名词脉络
一个非常变态,但可以让你快速学会C++的方法!存下吧,很难找全的!!!
第10课-Actor-Critic方法(Part3-重要性采样和Off-Policy Actor-Critic)【强化学习的数学原理】
第4课-值迭代与策略迭代(Part1-值迭代算法)【强化学习的数学原理】
第6课-随机近似与随机梯度下降(Part5-随机梯度下降例子与收敛性)【强化学习的数学原理】
第9课-策略梯度方法(Part3-该方法的目标函数2-Average reward)【强化学习的数学原理】
这才是小白该学的AI入门教程!上交大教授系统解读【机器学习】+【深度学习】+【强化学习】入门及实战,绝对通俗易懂!
第9课-策略梯度方法(Part2-该方法的目标函数1-Average value)【强化学习的数学原理】
RLHF基于人类反馈的强化学习动画讲解(LLM)
第5课-蒙特卡洛方法(Part2-MC Basic算法介绍)【强化学习的数学原理】
第6课-随机近似与随机梯度下降(Part6-随机梯度下降有趣的性质)【强化学习的数学原理】
听劝!普通人敢自学黑客,骂醒一个算一个,这里面的水太深了,黑客圈的秘密都在这!(网络安全/信息安全)
第9课-策略梯度方法(Part4-目标函数的梯度计算)【强化学习的数学原理】
第5课-蒙特卡洛方法(Part3-MC Basic算法例子)【强化学习的数学原理】
Diffusion Policy 结合 PPO 模仿+强化 (下)
在家作AI,昨天780,一台电脑,操作简单,分享我的接单平台,接单技巧和资源分享,目前经济自由!!
第4课-值迭代与策略迭代(Part3-截断策略迭代算法)【强化学习的数学原理】
第8课-值函数近似(Part8-DQN-代码与例子)【强化学习的数学原理】
第2课-贝尔曼公式(Part5-Action value的定义)【强化学习的数学原理】
AI新手必备!人工智能全套基础知识及项目实战,Python基础+数学基础+机器学习算法+神经网络+强化学习全详解!
第8课-值函数近似(Part2-原理-目标函数介绍)【强化学习的数学原理】
第5课-蒙特卡洛方法(Part4-MC Exploring Starts算法)【强化学习的数学原理】
第8课-值函数近似(Part3-原理-优化算法和函数选择)【强化学习的数学原理】
第8课-值函数近似(Part6-DQN-基本原理)【强化学习的数学原理】
第7课-时序差分方法(Part3-TD算法收敛性、与MC的比较)【强化学习的数学原理】
第6课-随机近似与随机梯度下降(Part7-随机梯度下降对比BGD, MBGD, SGD)【强化学习的数学原理】
第5课-蒙特卡洛方法(Part6-MC Epsilon-Greedy算法例子)【强化学习的数学原理】