[pytorch 强化学习] 04 迷宫环境（maze environment）封装 MazeEnv、Agent 类 - 视频下载 Video Downloader

[pytorch 强化学习] 04 迷宫环境（maze environment）封装 MazeEnv、Agent 类

发布人

本期code：https://github.com/chunhuizhang/bilibili_vlogs/blob/master/rl/tutorials/03_MazeEnv_Agent.ipynb
系列：https://space.bilibili.com/59807853/channel/collectiondetail?sid=908186
animation &amp; rendering：https://space.bilibili.com/59807853/channel/collectiondetail?sid=819449

打开封面下载高清视频观看高清视频视频下载器

[pytorch 强化学习] 02 将 env rendering 保存为 mp4/gif（以 CartPole 为例，mode='rgb_array'）

[pytorch 强化学习] 06 迷宫环境（maze environment）SARSA（Q-table，value iteration）求解

[pytorch 强化学习] 08 CartPole Q learning 连续状态离散化（digitize 分桶）及 display_frame_as_gif

[pytorch 强化学习] 07 迷宫环境（maze environment）Q Learning（value iteration）求解（策略关闭 off）

[pytorch 强化学习] 11 逐行写代码实现 DQN（ReplayMemory，Transition，DQN as Q function）

[pytorch 强化学习] 05 迷宫环境（maze environment）策略梯度（Policy Gradient）求解

为什么需要智能体（Agent）

[AI Agent] function calling & tool uses 与 argument generation

[pytorch 强化学习] 13 基于 pytorch 神经网络实现 policy gradient（REINFORCE）求解 CartPole

[pytorch 强化学习] 09 （逐行写代码）CartPole Q learning 基于连续状态离散化（digitize 分桶）

[pytorch 强化学习] 03 动手写迷宫环境（maze env）状态及动作策略初步（及动画保存）

[强化学习基础 01] MDP 基础（概率转移，与POMDP、I-POMDP）

[AI Agent] llama_index RAG 原理及源码分析

[强化学习基础 02] MDP价值迭代算法（value iteration，V(s), Q(s,a), pi(s)）

上海交大张伟楠强化学习课程第15讲：AI Agent与决策大模型II

强化学习框架-Legged Gym 训练代码详解

[pytorch 强化学习] 10 从 Q Learning 到 DQN（experience replay 与 huber loss / smooth L1）

[AI Agent] Agentic Reasoning & workflow工作流，及translation-agent 一个具体的 agent 项目

【Agent2024最新】Agent零基础入门到实战精通，手把手教你搭建企业级Agent智能体，底层原理技术讲解+项目案例解析+附上源码

[LangChain] 03 LangGraph 基本概念（AgentState、StateGraph，nodes，edges）

Labview从黄金到钻石（12）—— 封装IO模块（4）

提示词工程｜AI Agent 智能体的驱动基石｜Prompt掌握好，搭个Agent没烦恼！

[pytorch 网络拓扑结构] 深入理解 nn.LayerNorm 的计算过程

【技术栈选择指南】Agent热门框架速刷，精准掌握AI Agent开发技术栈 | AI Agent 经典架构 | LangChain | CrewAI

手把手带你基于LangGraph以图的方式构建Agent

[pytorch distributed] torch 分布式基础（process group），点对点通信，集合通信

[pytorch optim] 优化器相关 AdaGrad（adaptive gradient）与 RMSprop，自适应梯度

[pytorch 模型拓扑结构] 深入理解 nn.BCELoss 计算过程及 backward 及其与 CrossEntropyLoss 的区别与联系

【Agent应用案例5-进阶】让任务以JSON数据格式并最终任务以JSON格式输出，CrewAI+FastAPI打造多Agent协作应用并对外提供API服务

[LangChain] 05 LangChain、LangGraph 结构化输出（Structured output），gpt-4o-2024-08-06

吹爆！这绝对是同济大学最出名的AI Agent系列课程了，零基础阶段必备的前沿AI技术，还不会打造专属大模型智能体来打我！人工智能|机器学习|深度学习|强化学习

2024完整版从0到1搭建自己的的智能体（Agent）！大模型Agent智能体企业级项目实战：手把手带你搭建，原理讲解+代码解析，LLM_大模型_微调_提示词

[pytorch] torch.nn.Bilinear 计算过程与 einsum（爱因斯坦求和约定）

[pytorch distributed] deepspeed 基本概念、原理（os+g+p）

上海交大张伟楠强化学习课程第15讲：AI Agent与决策大模型I

[pytorch distributed] 张量并行与 megtron-lm 及 accelerate 配置

[pytorch distributed] nccl 集合通信（collective communication）

[pytorch distributed] amp 原理，automatic mixed precision 自动混合精度

[flask web 核心] 02 使用 jinja 创建模板 html 及初步使用 bootstrap 丰富页面内容

[LLM && AIGC] 04 深入理解 openai tokenizer 及 api 中的 logit_bias 与 logprobs