V
主页
[pytorch 强化学习] 09 (逐行写代码)CartPole Q learning 基于连续状态离散化(digitize 分桶)
发布人
本期 code:https://github.com/chunhuizhang/bilibili_vlogs/blob/master/rl/tutorials/08_cart_pole_q_learning.ipynb 离散状态数值化:BV1Lo4y1k7Mz 系列视频:https://space.bilibili.com/59807853/channel/collectiondetail?sid=908186
打开封面
下载高清视频
观看高清视频
视频下载器
[pytorch 强化学习] 11 逐行写代码实现 DQN(ReplayMemory,Transition,DQN as Q function)
09大模型全栈-强化学习02-RLHF前言LLM强化学习
10大模型全栈-强化学习03-RLHF原理以及流程介绍
强烈推荐!一套课程解决人工智能入门三步走:机器学习、深度学习、强化学习,真正适合小白自学的神级教程!
08大模型全栈-强化学习01-RLHF前言传统强化学习
11大模型全栈-强化学习04-RLHF实战-deepspeed-chat实战
12大模型全栈-强化学习05-RLHF实战-端到端全流程解决方案-轩辕大模型强化学习完整流程介绍(数据+奖励模型+强化学习调参经验)
吹爆!人工智能从入门到精通:Python基础+数学基础机器学习+深度学习+强化学习,涵盖所有基础知识及项目实战,AI新手必备!
零基础学习强化学习算法:ppo
[强化学习基础 01] MDP 基础(概率转移,与POMDP、I-POMDP)
14大模型全栈-强化学习07-DPO原理公式推导
【强化学习入门到实战】这也太全了!Q-learning算法、DQN算法、PPO算法、A3C算法等强化学习核心算法一口气学完!_AI/人工智能/深度学习/强化学习
[pytorch 强化学习] 07 迷宫环境(maze environment)Q Learning(value iteration)求解(策略关闭 off)
进来看看吧!零基础入门【王树森深度强化学习】完整版教程,含配套项目代码—王树森、深度强化学习、人工智能、深度学习、强化学习
15大模型全栈-强化学习08-DPO变体:IPO、KTO:无需偏好数据实现对齐
同济大佬倾力打造!三小时带你掌握【强化学习】基础原理及环境配置搭建,小白也能轻松掌握的通俗课程!
深度强化学习算法carla平台实战-PPO算法
强推!上海交大、腾讯、中国科学院三方强强联合的【python+机器学习+深度学习】系列课程,堪称人工智能系列课程的巅峰之作!-人工智能/深度学习/机器学习
[pytorch 强化学习] 06 迷宫环境(maze environment)SARSA(Q-table,value iteration)求解
【PyTorch深度学习实战案例】90个练手项目合集,九天练完,练完即可就业!直接拿下(很少有人可以把pytorch讲的如此通俗易懂了)
发论文idea来了,强化学习+Transformer 29个创新点汇总! 再也不用担心发论文了
2024智源大会 特邀报告 Reinforcement Learning with Large Datasets
比刷剧还爽!一口气学完深度强化学习零基础入门视频教程全套课程!PPO算法/DQN算法/A3C (人工智能、深度学习、机器学习、神经网络、图像处理、AI)
[pytorch 强化学习] 04 迷宫环境(maze environment)封装 MazeEnv、Agent 类
【111集付费】基于Pytorch深度学习框架搭建NLP聊天机器人实战,计算机博士带你手撸代码开发Chatbot项目,附配套代码!!
B站首推!不愧是李宏毅老师讲的【强化学习】简直太详细!!!2024公认最通俗易懂的【强化学习教程】小白也能信手拈来(人工智能|机器学习|深度学习|强化学习)
动画解析神经网络为什么可以学习?看计算机大佬如何通俗易懂的讲解神经网络底层逻辑原理!带你入门到实战!——(人工智能、深度学习、机器学习、机器学习算法、AI)
太简单了!从入门到精通一口气学完CNN、RNN、GAN、GNN、Transformer、LSTM终于有人把八大深度学习神经网络知识点讲透彻了!草履虫都能看懂!
请问强化学习的损失是上升的怎么回事
吹爆!李沐带你读《动手学习深度学习》 深度学习神经网络原理与代码实现 (物体检测/语义分割/机器翻译/计算机视觉)
[全栈深度学习] 01 docker 工具的基本使用及 nvidia cuda pytorch 镜像
论文精读:基于可解释强化学习的投资组合策略
千万级大赛来袭!扶我起来!Kaggle ARC Prize2024赛题分析 #强化学习 #推理语料库 #人工智能系统
Transformer实战代码原理(源码Pytorch版本)从零解读(Pytorch版本)
[pytorch distributed] deepspeed 基本概念、原理(os+g+p)
[pytorch distributed] 01 nn.DataParallel 数据并行初步
【强化学习入门】9.3 Policy Gradient 算法概述+实验设计
【速读量化论文】最适合A股大票的强化学习算法:细品,言外之意更重要
太牛了!颠覆传统【深度强化学习】,被应用于多个经典强化学习算法中的异步强化学习方法究竟有何跨时代意义?一篇论文解析告诉你!!!
[pytorch] [求导练习] 03 计算图(computation graph)及链式法则(chain rule)反向传播过程