V
主页
京东 11.11 红包
【RLChina 论文研讨会】第29期 郭亨铨 强约束条件下在线凸优化算法研究
发布人
打开封面
下载高清视频
观看高清视频
视频下载器
【RLChina论文研讨会】第41期 杨林鑫 混合整数线性优化问题上基于图神经网络的“预测-搜索”算法框架
【RLChina论文研讨会】第34期 马一宁 解决车辆路径问题的深度强化学习方法:近期发展及挑战
【RLChina论文研讨会】第80期 冯加恒 离线到在线强化学习中的稳定化无约束微调
【RLChina 论文研讨会】第29期 白丰硕 元奖励网络:一种隐式微分奖励学习的基于偏好的强化学习方法
【RLChina 论文研讨会】第29期 蒋铮尧 隐动作空间内的高效规划
【RLChina论文研讨会】第35期 薛轲 多智能体动态算法配置
【RLChina 2023】 专题报告六:基于大语言模型的开放世界智能决策 杨耀东
【RLChina论文研讨会】第25期 温睦宁 MARL is a Sequence Modeling Problem
【RLChina论文研讨会】第43期 王治海 面向资源受限强化学习的高效探索
【RLChina论文研讨会】第31期 姜力 一种模仿结合策略引导的离线强化学习算法
【RLChina论文研讨会】第44期 梁豪 用于风险敏感控制的分布强化学习的遗憾保证
【RLChina论文研讨会】第68期 赵有朋 策略空间中的多智能体一阶约束优化方法
【RLCHina 论文研讨会】第27期 刘世旋 增广POMDP:一种结合观测型数据和干预型数据的因果强化学习方法
【RLChina论文研讨会】第72期 马纬彧 大模型玩转星际 新的基准和总结链的尝试
【RLChina论文研讨会】第36期 陈晰 基于潜变量优势加权的离线强化学习优化算法
【RLChina论文研讨会】第30期 徐志伟 基于模型的合作多智能体强化学习方法
【RLChina论文研讨会】第82期 梁志烜 SkillDiffuser: Interpretable Hierarchical Planning via
【RLChina论文研讨会】第20期 张杨 基于离线强化学习框架的在线优惠券分配策略研究
【RLChina论文研讨会】第42期 阳方杰 有效的深度强化学习需要调节统计过拟合
UCL 汪军教授《Multi-agent AI》课程(中文字幕)
【RLChina论文研讨会】第46期 闫雪 Learning to Identify Top Elo Ratings:A Dueling Bandits App
【RLChina 2022】实践课五:离线强化学习算法 秦熔均
【RLChina论文研讨会】第33期 万旭 AdapSafe面向低碳电力系统频率控制的自适应与安全保证深度强化学习算法
【RLChina论文研讨会】第40期 史紫荆 文字冒险游戏中的价值对齐
【RLChina论文研讨会】第50期 邢东 多智能体即兴协作中的类型混淆
【RLChina论文研讨会】第48期 林谦 面向实时预算约束的离线安全强化学习
【RLChina论文研讨会】第57期 罗俊仁 博弈决策视角下的“外交风云”多人博弈AI实证分析
【RLChina论文研讨会】第70期 吴梓帆 优化基于模型多智能体强化学习中的多步局部模型交互
【RLChina论文研讨会】第38期 张福翔 Discovering Generalizable Multi-agent Coordination Skills
大模型如何增强强化学习?简单粗暴理解大模型训练中的人类反馈强化学习RLHF!PPO算法、ChatGPT背后的数学原理
【RLChina论文研讨会】第80期 叶鸣轩 强化学习中基于状态序列频域预测的表征学习方法
【RLChina论文研讨会】第92期 张万鹏 通过因果表示解决强化学习中的非平稳性问题
【RLChina论文研讨会】第45期 穆尧 AdaptDiffuser:Diffusion Models as Adaptive Self-evolving
【RLChina论文研讨会】第24期 王远非 Multi-Agent Communication and Cooperation with Theory of
【RLChina论文研讨会】第44期 李子牛 一种基于模仿学习的迁移学习理论
【RLChina论文研讨会】第52期 郝晓田 多智能体强化学习中的置换不变性和置换同变性
【RLChina论文研讨会】第88期 徐国玮 基于“神经元冬眠”效应的高样本效率视觉强化学习算法
【RLChina论文研讨会】第60期 张策尧 使用大型语言模型构建主动协作人工智能
【RLChina论文研讨会】第25期 马成栋 Fully Decentralized M-based Policy Optimization for Netw—
【RLChina论文研讨会】第31期 牛浩懿 何时相信你的仿真器:考虑动力学偏差的混合离线在线强化学习