V
主页
[pytorch 强化学习] 09 (逐行写代码)CartPole Q learning 基于连续状态离散化(digitize 分桶)
发布人
本期 code:https://github.com/chunhuizhang/bilibili_vlogs/blob/master/rl/tutorials/08_cart_pole_q_learning.ipynb 离散状态数值化:BV1Lo4y1k7Mz 系列视频:https://space.bilibili.com/59807853/channel/collectiondetail?sid=908186
打开封面
下载高清视频
观看高清视频
视频下载器
[pytorch 强化学习] 01 认识环境(environment,gym.Env)以及 CartPole-v0/v1 环境
[pytorch 强化学习] 08 CartPole Q learning 连续状态离散化(digitize 分桶)及 display_frame_as_gif
[pytorch 强化学习] 07 迷宫环境(maze environment)Q Learning(value iteration)求解(策略关闭 off)
强化学习,启动!
深度学习环境配置一套搞定:anaconda+pytorch+pycharm+cuda全详解,带你从0配置环境到跑通代码!
[pytorch 强化学习] 12 逐行写代码实现 DQN 完全体
[pytorch 强化学习] 10 从 Q Learning 到 DQN(experience replay 与 huber loss / smooth L1)
[pytorch 强化学习] 13 基于 pytorch 神经网络实现 policy gradient(REINFORCE)求解 CartPole
[强化学习基础 01] MDP 基础(概率转移,与POMDP、I-POMDP)
强化小伙终于起立了
太完整了!我居然3天时间就掌握了【机器学习+深度学习+强化学习+PyTorch】理论到实战,多亏了这个课程,绝对通俗易懂纯干货分享!
[pytorch 强化学习] 04 迷宫环境(maze environment)封装 MazeEnv、Agent 类
[pytorch 强化学习] 03 动手写迷宫环境(maze env)状态及动作策略初步(及动画保存)
[pytorch 强化学习] 06 迷宫环境(maze environment)SARSA(Q-table,value iteration)求解
[pytorch 强化学习] 05 迷宫环境(maze environment)策略梯度(Policy Gradient)求解
每个初学深度学习的小伙伴只需要学这三个项目!学完以后可以说没有什么深度学习代码能够难住你!
宋雨琦签售会让粉丝捏脸
RLChina 2024 | 3小时强化学习入门课程-下
【Yao Class Seminar】关于强化学习可解释性的talk
Diffusion Policy 结合 PPO 模仿+强化 (下)
[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader(mnist、fashionmnist、cifar10)
研一刚入学,从未接触过神经网络python也是才开始学,现在导师要我做LSTM,我应该去学什么?
不愧是顶会收割机!迪哥精讲强化学习4大主流算法:PPO、Q-learning、DQN、A3C 50集入门到精通!
RLHF基于人类反馈的强化学习动画讲解(LLM)
[pytorch] Tensor 轴(axis)交换,transpose(转置)、swapaxes、permute
动画讲解深度强化学习(RL、Q-网络、策略优化、大模型算法入门教程)
Decaying Action Priors for Accelerated Imitation Learning of Torque-Based Legged
[pytorch distributed] 张量并行与 megtron-lm 及 accelerate 配置
这应该是你能找到的讲解最系统全面的【强化学习】教程!北大出身王树森教授从零到一保姆式教学,小白也能很好懂!
强强联合!GNN+强化学习!刷爆SOTA,霸榜顶会的28个方案
深度学习不会写代码?本硕博提升代码能力的利器,这份解决你代码基础差的模板你一定一定不要错过!
[概率 & 统计] kl div kl散度的计算及应用(pytorch)
[pytorch optim] Adam 与 AdamW,L2 reg 与 weight decay,deepseed
CV强化论文分享-20241025-02
[pytorch] torch.nn.Bilinear 计算过程与 einsum(爱因斯坦求和约定)
[pytorch 番外] Tensorboard 与计算图初步(算子与 ATen)
奔跑有点难度,步态很抽象,大佬们有没有什么好建议
[pytorch] 多项式分布及采样(torch.multinomial, torch distribution Categorical)
【ResNet+Transformer】基于PyTorch的迁移学习残差网络Resnet,细胞分类任务、ViT、DERT目标检测
[LLM && AIGC] 04 深入理解 openai tokenizer 及 api 中的 logit_bias 与 logprobs