V
主页
京东 11.11 红包
【RLChina 2022】前沿进展五:应用多智能体强化学习解决现实问题——机遇和挑战 方飞
发布人
打开封面
下载高清视频
观看高清视频
视频下载器
【RLChina 2021】第11课 多智能体入门(一) 杨耀东
【RLChina 2022】专题报告一:多智能体强化学习 张崇洁
【RLChina 2022】前沿进展二:强化学习在金融决策里的应用 徐任远
【RLChina 2022】前沿进展三:演化强化学习的研究与应用 郑岩
【RLChina 2022】前沿进展九:多样性强化学习——不光要赢,还要赢得精彩 吴翼
【RLChina论文研讨会】第97期 胡昊 基于贝叶斯原则的离线到在线强化学习
【RLChina 前沿讲习班】第2期 游戏智能体专题 第2场 网易伏羲实验室 胡裕靖
【RLChina 2021】第14课 多智能体进阶(二) 徐任远
【RLChina 2022】理论课五:深度强化学习 张启超
【RLChina 2023】Tutorial 张伟楠 强化学习入门
【RLChina 2021】第15课 多智能体前沿(一) 吴翼
《强化学习》第5章 蒙特卡洛MC方法
【RLChina论文研讨会】第89期 贾乘兴 Offline Transition Modeling via Contrastive Energy Learni
【RLChina 2021】第3课 博弈论入门 张海峰
【RLChina论文研讨会】第34期 马一宁 解决车辆路径问题的深度强化学习方法:近期发展及挑战
【RLChina 2022】前沿进展七:深度强化学习的若干前沿方向 柯良军
【RLChina 2023】主旨报告 安波 Towards Foundation Agents:Autonomous Agents, AI Agents
【RLChina 前沿讲习班】第2期 游戏智能体专题 第1场 中科院自动化研究所 朱圆恒
【RLChina论文研讨会】第87期 盛俊杰 语言智能体可以作为PPO的替代吗?一个在OpenAI Gym上的初步研究
【RLChina论文研讨会】第34期 尤扬 POMDP与Dec-POMDP问题的精确与近似解法
【RLChina 2023】 专题报告三:强化学习与语言大模型的一些共通点 俞扬
【RLChina论文研讨会】第85期 葛振兴 Safe and Robust Subgame Exploitation in Imperfect Informa
【RLChina论文研讨会】第86期 毛怡欢 风格化强化学习:从异质数据集中抽取多样性、高质量的行为
【强推】李宏毅深度强化学习完整版教程!简单易懂的PPO算法强化学习入门课程!近端策略优化、Transformer
【RLChina论文研讨会】第79期 金宣法 学会策略性发言:以《一夜终极狼人杀》为例
【RLChina 2022】理论课四:强化学习的直接法与间接法 李升波
【RLChina 2023】Workshop1 王立威 A Theory of Chain of Thought
【具身论文阅读】Diffuser: 基于diffusion的强化学习规划器
【RLChina 2023】Workshop4 Panel Discussion 大语言模型辅助的智能体决策与推理
【RLChina 2023】Workshop6 杨成 大语言模型智能体合作框架
【RLChina论文研讨会】第67期 张钰荻 强化学习中可解释的奖励重新分配:一种因果角度方法
【RLChina论文研讨会】第83期 曾勇程 Token-level Direct Preference Optimization
【RLChina 2023】Workshop5 宋研 Evaluation of Agents
【RLChina论文研讨会】第25期 温睦宁 MARL is a Sequence Modeling Problem
【RLChina论文研讨会】第80期 冯加恒 离线到在线强化学习中的稳定化无约束微调
【RLChina 2023】Workshop8 张新宇 智能体精细灵巧操作关键问题研究
【共享LLM前沿】直观理解大模型预训练和微调!P-Tuning微调、Lora-QLora、RLHF基于人类反馈的强化学习微调,代码讲解
【RLChina论文研讨会】第72期 米祈睿 TaxAI多智能体强化学习的动态经济模拟器和基准
【RLChina论文研讨会】第89期 邱文杰 Debiased Offline Representation Learning for Fast Online
【RLChina 2023】Tutorial 杨梦月 Causality For Decision Making