V
主页
[pytorch 强化学习] 02 将 env rendering 保存为 mp4/gif(以 CartPole 为例,mode='rgb_array')
发布人
本期 code:https://github.com/chunhuizhang/bilibili_vlogs/tree/master/rl/tutorials 系列地址:https://space.bilibili.com/59807853/channel/collectiondetail?sid=908186 animation 地址:https://www.bilibili.com/video/BV1pD4y1b7c2/?spm_id_from=333.999.0.0
打开封面
下载高清视频
观看高清视频
视频下载器
[pytorch 强化学习] 01 认识环境(environment,gym.Env)以及 CartPole-v0/v1 环境
[pytorch 强化学习] 03 动手写迷宫环境(maze env)状态及动作策略初步(及动画保存)
[pytorch 强化学习] 09 (逐行写代码)CartPole Q learning 基于连续状态离散化(digitize 分桶)
[pytorch 强化学习] 10 从 Q Learning 到 DQN(experience replay 与 huber loss / smooth L1)
[pytorch 强化学习] 06 迷宫环境(maze environment)SARSA(Q-table,value iteration)求解
[pytorch 强化学习] 13 基于 pytorch 神经网络实现 policy gradient(REINFORCE)求解 CartPole
[pytorch 强化学习] 04 迷宫环境(maze environment)封装 MazeEnv、Agent 类
[pytorch 强化学习] 07 迷宫环境(maze environment)Q Learning(value iteration)求解(策略关闭 off)
[pytorch 强化学习] 08 CartPole Q learning 连续状态离散化(digitize 分桶)及 display_frame_as_gif
[强化学习基础 01] MDP 基础(概率转移,与POMDP、I-POMDP)
[pytorch 强化学习] 12 逐行写代码实现 DQN 完全体
[pytorch 强化学习] 11 逐行写代码实现 DQN(ReplayMemory,Transition,DQN as Q function)
RLChina 2024 | 3小时强化学习入门课程-下
[全栈深度学习] 02 vscode remote(远程)gpus 服务器开发调试 debugger(以 nanoGPT 为例)
斯坦福大学《强化学习|Stanford CS234 Reinforcement Learning 2024》deepseek翻译
[pytorch 强化学习] 05 迷宫环境(maze environment)策略梯度(Policy Gradient)求解
太完整了!我居然3天时间就掌握了【机器学习+深度学习+强化学习+PyTorch】理论到实战,多亏了这个课程,绝对通俗易懂纯干货分享!
【深度学习环境搭建】01 本机、GPU服务器端深度学习环境搭建(代码、数据共享)
[动手写神经网络] 01 认识 pytorch 中的 dataset、dataloader(mnist、fashionmnist、cifar10)
RLChina 2024 | 3小时强化学习入门课程-上
动画讲解深度强化学习(RL、Q-网络、策略优化、大模型算法入门教程)
[概率 & 统计] KL 散度(KL div)forward vs. reverse
[RLHF] 从 PPO rlhf 到 DPO,公式推导与原理分析
[全栈深度学习] 01 docker 工具的基本使用及 nvidia cuda pytorch 镜像
[AI 核心概念及计算] 概率计算 01 pytorch 最大似然估计(MLE)伯努利分布的参数
[AI硬件科普] 内存/显存带宽,从 NVIDIA 到苹果 M4
[模型拓扑接口] 经典 RNN 模型(一)模型参数及训练参数的介绍
[调包侠] 使用 PyTorch Swin Transformer 完成图像分类
【破解深度学习】1.2 一句话讲清CNN、RNN、Transformer的区别
[pytorch distributed] 04 模型并行(model parallel)on ResNet50
[动手写神经网络] 手动实现 Transformer Encoder
CV强化论文分享20241018-2
[animation & rendering] matplotlib funcanimation 多重动画绘制(multiple lines plot)
通俗理解大模型从预训练到微调实战!P-Tuning微调、Lora-QLora、RLHF基于人类反馈的强化学习
在isaaclab中开发viplanner端到端导航
RLHF基于人类反馈的强化学习动画讲解(LLM)
【Yao Class Seminar】关于强化学习可解释性的talk
[Python 机器学习] 深入理解 numpy(ndarray)的 axis(轴/维度)
[数据可视化] 绘制交互式 3d plot(interactive 3d plot, Axes3d) z=f(x, y) (三维空间中的 surface)
[小白向-深度学习装机指南] 01 双4090 涡轮版开箱启动 vlog(gpu burn,cpu burn)