V
主页
[pytorch 强化学习] 04 迷宫环境(maze environment)封装 MazeEnv、Agent 类
发布人
本期code:https://github.com/chunhuizhang/bilibili_vlogs/blob/master/rl/tutorials/03_MazeEnv_Agent.ipynb 系列:https://space.bilibili.com/59807853/channel/collectiondetail?sid=908186 animation & rendering:https://space.bilibili.com/59807853/channel/collectiondetail?sid=819449
打开封面
下载高清视频
观看高清视频
视频下载器
[pytorch 强化学习] 02 将 env rendering 保存为 mp4/gif(以 CartPole 为例,mode='rgb_array')
[pytorch 强化学习] 06 迷宫环境(maze environment)SARSA(Q-table,value iteration)求解
[pytorch 强化学习] 08 CartPole Q learning 连续状态离散化(digitize 分桶)及 display_frame_as_gif
[pytorch 强化学习] 07 迷宫环境(maze environment)Q Learning(value iteration)求解(策略关闭 off)
[pytorch 强化学习] 11 逐行写代码实现 DQN(ReplayMemory,Transition,DQN as Q function)
[pytorch 强化学习] 05 迷宫环境(maze environment)策略梯度(Policy Gradient)求解
为什么需要智能体(Agent)
[AI Agent] function calling & tool uses 与 argument generation
[pytorch 强化学习] 13 基于 pytorch 神经网络实现 policy gradient(REINFORCE)求解 CartPole
[pytorch 强化学习] 09 (逐行写代码)CartPole Q learning 基于连续状态离散化(digitize 分桶)
[pytorch 强化学习] 03 动手写迷宫环境(maze env)状态及动作策略初步(及动画保存)
[强化学习基础 01] MDP 基础(概率转移,与POMDP、I-POMDP)
[AI Agent] llama_index RAG 原理及源码分析
[强化学习基础 02] MDP价值迭代算法(value iteration,V(s), Q(s,a), pi(s))
上海交大张伟楠强化学习课程第15讲:AI Agent与决策大模型II
强化学习框架-Legged Gym 训练代码详解
[pytorch 强化学习] 10 从 Q Learning 到 DQN(experience replay 与 huber loss / smooth L1)
[AI Agent] Agentic Reasoning & workflow工作流,及translation-agent 一个具体的 agent 项目
【Agent2024最新】Agent零基础入门到实战精通,手把手教你搭建企业级Agent智能体,底层原理技术讲解+项目案例解析+附上源码
[LangChain] 03 LangGraph 基本概念(AgentState、StateGraph,nodes,edges)
Labview从黄金到钻石(12)—— 封装IO模块(4)
提示词工程|AI Agent 智能体的驱动基石|Prompt掌握好,搭个Agent没烦恼!
[pytorch 网络拓扑结构] 深入理解 nn.LayerNorm 的计算过程
【技术栈选择指南】Agent热门框架速刷,精准掌握AI Agent开发技术栈 | AI Agent 经典架构 | LangChain | CrewAI
手把手带你基于LangGraph以图的方式构建Agent
[pytorch distributed] torch 分布式基础(process group),点对点通信,集合通信
[pytorch optim] 优化器相关 AdaGrad(adaptive gradient) 与 RMSprop,自适应梯度
[pytorch 模型拓扑结构] 深入理解 nn.BCELoss 计算过程及 backward 及其与 CrossEntropyLoss 的区别与联系
【Agent应用案例5-进阶】让任务以JSON数据格式并最终任务以JSON格式输出,CrewAI+FastAPI打造多Agent协作应用并对外提供API服务
[LangChain] 05 LangChain、LangGraph 结构化输出(Structured output),gpt-4o-2024-08-06
吹爆!这绝对是同济大学最出名的AI Agent系列课程了,零基础阶段必备的前沿AI技术,还不会打造专属大模型智能体来打我!人工智能|机器学习|深度学习|强化学习
2024完整版从0到1搭建自己的的智能体(Agent)!大模型Agent智能体企业级项目实战:手把手带你搭建,原理讲解+代码解析,LLM_大模型_微调_提示词
[pytorch] torch.nn.Bilinear 计算过程与 einsum(爱因斯坦求和约定)
[pytorch distributed] deepspeed 基本概念、原理(os+g+p)
上海交大张伟楠强化学习课程第15讲:AI Agent与决策大模型I
[pytorch distributed] 张量并行与 megtron-lm 及 accelerate 配置
[pytorch distributed] nccl 集合通信(collective communication)
[pytorch distributed] amp 原理,automatic mixed precision 自动混合精度
[flask web 核心] 02 使用 jinja 创建模板 html 及初步使用 bootstrap 丰富页面内容
[LLM && AIGC] 04 深入理解 openai tokenizer 及 api 中的 logit_bias 与 logprobs