V
主页
京东 11.11 红包
【RLChina论文研讨会】第52期 袁逸夫 EUCLID:基于多项选择世界模型的高效无监督强化学习
发布人
课件下载:http://rlchina.org/topic/735
打开封面
下载高清视频
观看高清视频
视频下载器
【RLChina论文研讨会】第52期 吴吉洲 多智能体强化学习自动课程学习
【RLChina论文研讨会】第55期 何强 Eigensubspace of Temporal-Difference Dynamics and How It I
【RLChina论文研讨会】第56期 宋昊霖 MA2CL:Masked Attentive Contrastive Learning for Multi-Age
【RLChina论文研讨会】第37期 梁贺斌 基于深度强化学习求解MinMax多旅行商问题的序列切割算法
【RLChina论文研讨会】第48期 刘宗凯 零和博弈中的最终策略收敛
【RLChina论文研讨会】第67期 张钰荻 强化学习中可解释的奖励重新分配:一种因果角度方法
【RLChina论文研讨会】第31期 牛浩懿 何时相信你的仿真器:考虑动力学偏差的混合离线在线强化学习
【RLChina论文研讨会】第72期 马纬彧 大模型玩转星际 新的基准和总结链的尝试
【RLChina论文研讨会】第36期 杨以钦 基于流模型的离线分层强化学习
【RLChina论文研讨会】第31期 姜力 一种模仿结合策略引导的离线强化学习算法
【RLChina 2022】理论课三:强化学习基础 张伟楠
【RLChina论文研讨会】第26期 杨睿 观测干扰任务中基于奖励序列特征函数的表征学习方法
【RLChina论文研讨会】第51期 吴澄杰 在子博弈优化中实现安全的对手利用
【RLChina论文研讨会】第83期 叶语霄 LLM-based Text2SQL:new SOTA and comprehensive benchmarkin
【RLChina论文研讨会】第83期 曾勇程 Token-level Direct Preference Optimization
【RLChina论文研讨会】第89期 贾乘兴 Offline Transition Modeling via Contrastive Energy Learni
【RLChina论文研讨会】第53期 曾兰婷 基于强化学习控制的低碳电力系统安全性研究
【RLChina论文研讨会】第59期 王翰竟 用于大型强化学习模型的以gpu为中心的经验回放系统
【RLChina论文研讨会】第72期 米祈睿 TaxAI多智能体强化学习的动态经济模拟器和基准
【RLChina论文研讨会】第88期 张谷 Learning Dexterous Robot Manipulation Skills Based On 3D V
【RLChina论文研讨会】第42期 阳方杰 有效的深度强化学习需要调节统计过拟合
【RLChina论文研讨会】第76期 董炜隽 观测模仿学习中的自动折扣因子调节
【RLChina论文研讨会】第56期 李逸尘 Policy Regularization with Dataset Constraint for Offline
【RLChina论文研讨会】第53期 张子谦 Fast Teammate Adaptation in the Presence of Sudden Policy
【RLChina论文研讨会】第6期 李承昊 Celebrating Diversity in Shared Multi-Agent Reinforcement
【RLChina 论文研讨会】第28期 吴梓帆 规划模型预测:基于策略与模型角色反转的有模型强化学习算法
【RLChina 论文研讨会】第2期 白辰甲 Dynamic Bottleneck for Robust Self-Supervised Exploration
【RLChina 2022】前沿进展二:强化学习在金融决策里的应用 徐任远
【RLChina论文研讨会】第20期 张杨 基于离线强化学习框架的在线优惠券分配策略研究
【RLChina 2023】专题报告二:从生成式大模型到决策式大模型 张伟楠
【RLChina论文研讨会】第43期 王治海 面向资源受限强化学习的高效探索
【RLChina论文研讨会】第22期 辜鹏杰 基于伪度量动作表征的离线强化学习
【RLChina 2023】Tutorial 杨梦月 Causality For Decision Making
【RLChina 2021】第17课 专题报告 —— 强化学习训练系统 温颖
【RLChina论文研讨会】第18期 杨正宇 面向应用的强化学习:使用策略集成提高泛化和样本效率
【RLChina 论文研讨会】第2期 刘明桓 Curriculum Offline Imitation Learning
【RLChina论文研讨会】第70期 朱文轩 基于观察数据的深度因果强化学习
【RLChina论文研讨会】第88期 徐国玮 基于“神经元冬眠”效应的高样本效率视觉强化学习算法
【RLChina 前沿讲习班】第1期 自动驾驶专题 第2场 华为诺亚罗军
【RLChina论文研讨会】第6期 汤宏垚 What About Inputting Policy in Value Function