V
主页
京东 11.11 红包
【RLChina论文研讨会】第94期 吕怡琴 Robust Fast Adaptation from Adversarially Explicit Task D
发布人
打开封面
下载高清视频
观看高清视频
视频下载器
【RLChina论文研讨会】第53期 张子谦 Fast Teammate Adaptation in the Presence of Sudden Policy
【RLChina论文研讨会】第89期 邱文杰 Debiased Offline Representation Learning for Fast Online
【RLChina论文研讨会】第89期 贾乘兴 Offline Transition Modeling via Contrastive Energy Learni
【RLChina论文研讨会】第88期 张谷 Learning Dexterous Robot Manipulation Skills Based On 3D V
【RLChina论文研讨会】第84期 刘明桓 Visual Whole-Body Control for Legged Loco-Manipulation
【RLChina论文研讨会】第69期 吕怡琴 A Simple Yet Effective Strategy to Robustify the Meta Lea
【RLChina 论文研讨会】第2期 刘明桓 Curriculum Offline Imitation Learning
【RLChina论文研讨会】第93期 王治海 基于分层自适应多任务强化学习框架的乘法电路自动设计
【RLChina论文研讨会】第92期 鲁云龙 麻将AI比赛:拓展AI在复杂现实世界游戏中的应用
【RLChina论文研讨会】第34期 尤扬 POMDP与Dec-POMDP问题的精确与近似解法
【RLChina论文研讨会】第91期 刘润泽 PEARL:机器人操作的零样本跨任务偏好对齐和鲁棒奖励学习
【RLChina论文研讨会】第61期 何浩然 Diffusion:Model is an Effective Planner and Data Synthesi
【RLChina论文研讨会】第77期 王鹏远 Language Model Self-improvement by Reinforcement Learnin
【RLChina论文研讨会】第87期 盛俊杰 语言智能体可以作为PPO的替代吗?一个在OpenAI Gym上的初步研究
【RLChina论文研讨会】第76期 董恒 基于双曲表征的多细胞机器人设计
【RLChina论文研讨会】第91期 史紫荆 在阿瓦隆桌游中评估LLM agent在临时团队中的协作能力
【RLChina论文研讨会】第83期 曾勇程 Token-level Direct Preference Optimization
【RLChina论文研讨会】第78期 陈炤桦 重复二价拍卖中的动态预算节流方法
【RLChina论文研讨会】第75期 辜鹏杰 Offline RL with discrete proxy representations for genera
【RLChina论文研讨会】第73期 洪逸宁 构建具身智能的3D基础大模型
【RLChina论文研讨会】第45期 穆尧 AdaptDiffuser:Diffusion Models as Adaptive Self-evolving
【RLChina论文研讨会】第86期 毛怡欢 风格化强化学习:从异质数据集中抽取多样性、高质量的行为
【RLChina论文研讨会】第57期 罗俊仁 博弈决策视角下的“外交风云”多人博弈AI实证分析
【RLChina论文研讨会】第73期 史紫荆 文字冒险游戏中的道德决策制定
【RLChina 2022】专题报告二:贝叶斯优化 汪军、Rasul Tutunov
【RLChina论文研讨会】第50期 杨如帅 基于行为对比的强化学习技能挖掘方法
【RLChina 2020】第3讲 Non-Convex Optimisation: Survey & ADAM's Proof
【RLChina论文研讨会】第68期 徐康 基于价值驱动数据筛选的跨域策略自适应
【RLChina 2020】第12讲 Multi-agent RL: From a Mean-Field Perspective
【RLChina论文研讨会】第46期 宋研 强化学习中的系统设计
【RLChina论文研讨会】第23期 李子牛 New Theore. Understand. of Adversarial Imitation Learning
【RLChina 2021】第3课 博弈论入门 张海峰
【RLChina论文研讨会】第68期 赵有朋 策略空间中的多智能体一阶约束优化方法
【RLChina论文研讨会】第67期 闫雪 零样本人工智能与人类协作的高效端到端训练方法
【RLChina论文研讨会】第75期 刘殊畅 KuaiSim:一个更全面的推荐系统用户模拟器
【RLChina论文研讨会】第76期 董炜隽 观测模仿学习中的自动折扣因子调节
【RLChina论文研讨会】第34期 马一宁 解决车辆路径问题的深度强化学习方法:近期发展及挑战
【RLChina论文研讨会】第68期 阳明宇 分层多智能体技能发现
【RLChina 2021】第5课 强化学习入门(一) 张伟楠
【RLChina论文研讨会】第15期 陈睿卿 Multi-Agent Trust Region Policy Optimization Algorithm