V
主页
京东 11.11 红包
【RLChina论文研讨会】第50期 陈烽 基于自监督信息聚合的高效多智能体通信
发布人
课件下载地址:http://rlchina.org/topic/722
打开封面
下载高清视频
观看高清视频
视频下载器
【RLChina论文研讨会】第34期 马一宁 解决车辆路径问题的深度强化学习方法:近期发展及挑战
【RLChina 2021】第11课 多智能体入门(一) 杨耀东
【RLChina 2023】 专题报告六:基于大语言模型的开放世界智能决策 杨耀东
【RLChina论文研讨会】第48期 刘宗凯 零和博弈中的最终策略收敛
【RLChina论文研讨会】第51期 杨以钦 离线强化学习中的无监督数据共享
【RLChina论文研讨会】第52期 吴吉洲 多智能体强化学习自动课程学习
【RLChina论文研讨会】第49期 刘梓辰 Efficient Offline Policy Optimization with a Learned Mode
【RLChina论文研讨会】第61期 何浩然 Diffusion:Model is an Effective Planner and Data Synthesi
【RLChina论文研讨会】第26期 王丽 个体奖励辅助的多智能体强化学习方法
【RLChina论文研讨会】第87期 盛俊杰 语言智能体可以作为PPO的替代吗?一个在OpenAI Gym上的初步研究
【RLChina论文研讨会】第72期 马纬彧 大模型玩转星际 新的基准和总结链的尝试
【RLChina论文研讨会】第50期 杨如帅 基于行为对比的强化学习技能挖掘方法
【RLChina 2023】 专题报告三:强化学习与语言大模型的一些共通点 俞扬
【RLChina 论文研讨会】第2期 刘明桓 Curriculum Offline Imitation Learning
【RLChina论文研讨会】第80期 冯加恒 离线到在线强化学习中的稳定化无约束微调
【RLChina 论文研讨会】第28期 刘宗凯 基于策略多样性的多智能体强化学习
【RLChina论文研讨会】第37期 戴子彭 基于社会价值取向的无人车交互决策方法
【RLChina论文研讨会】第26期 万里鹏 基于贪婪值函数表征的多智能体最优协作方法
【被导师放养】研究生SCI论文从写作到发表,SCI论文产出全过程精讲!手把手教你从写作到发表的全过程—论文写作_sci论文_sci论文写作
【RLChina论文研讨会】第93期 王治海 基于分层自适应多任务强化学习框架的乘法电路自动设计
【RLChina论文研讨会】第73期 马晓健 开放世界下的通才具身智能体
【RLChina论文研讨会】第96期 刘金毅 大语言模型驱动的单细胞测序数据分析自主智能体
【RLChina论文研讨会】第56期 施余峰 Multi-Agent Reinforcement Learning with Safety Layer for
【RLChina论文研讨会】第38期 张福翔 Discovering Generalizable Multi-agent Coordination Skills
【RLChina论文研讨会】第92期 张万鹏 通过因果表示解决强化学习中的非平稳性问题
【RLChina论文研讨会】第56期 宋昊霖 MA2CL:Masked Attentive Contrastive Learning for Multi-Age
【RLChina论文研讨会】第53期 张子谦 Fast Teammate Adaptation in the Presence of Sudden Policy
【RLChina论文研讨会】第88期 徐国玮 基于“神经元冬眠”效应的高样本效率视觉强化学习算法
【RLChina 前沿讲习班】第4期 贝叶斯优化专题 第1场 牛津大学 茹彬鑫
【RLChina论文研讨会】第58期 王锡淮 Order Matters:Agent-by-agent Policy Optimization
【RLChina 2023】专题报告二:从生成式大模型到决策式大模型 张伟楠
【RLChina论文研讨会】第48期 林谦 面向实时预算约束的离线安全强化学习
【RLChina论文研讨会】第88期 张谷 Learning Dexterous Robot Manipulation Skills Based On 3D V
【RLChina论文研讨会】第83期 叶语霄 LLM-based Text2SQL:new SOTA and comprehensive benchmarkin
【RLChina 2022】前沿进展七:深度强化学习的若干前沿方向 柯良军
【RLChina论文研讨会】第91期 刘润泽 PEARL:机器人操作的零样本跨任务偏好对齐和鲁棒奖励学习
【RLChina论文研讨会】第56期 李逸尘 Policy Regularization with Dataset Constraint for Offline
【RLChina论文研讨会】第77期 吴佳龙 世界模型的内生任务均衡
【RLChina 2022】专题报告一:多智能体强化学习 张崇洁
【RLChina论文研讨会】第83期 曾勇程 Token-level Direct Preference Optimization