玩个球的贪婪之道-玩个球

发布人

首届“AI球球大作战：多智能体决策智能挑战赛”完美收官，也迎来了最终的获奖队伍。现将他们的技术方案分享给大家，一起学习鸭！

打开封面下载高清视频观看高清视频视频下载器

基于引力模型的规则算法-大球球病了二球球瞧

万有引力下的球球作战-logic

基于分层决策的球球大作战智能体实现-重铸429荣光

GoBigger-Explore：基于OpenDILab的多智能体决策智能设计方案分享-OpenDILab算法研究员杨振杰

GoBigger：多智能体决策智能环境设计分享-OpenDILab核心研发人员张明

DI-engine：从多种环境和多种训练pipline的角度探索决策AI技术的不同形态

基于仿真系统的强化学习系列，pybullet仿真系统篇(1)

【Insight Time】席卷顶会投稿关键词热榜的扩散模型到底是什么来头？

OpenDILab 陈若冰：决策AI应用与生态——优化+探索

【PPO × Family】第七课：挖掘黑科技 —— 探秘调优 PPO 的七重境界

清华大学高阳：Mastering Atari Games with Limited Data

中国科学院深圳先进技术研究院胡如云：强化学习在合成生物领域的应用

【PPO × Family】第五课：探索时序建模

【PPO × Family】第四课：解密稀疏奖励空间

联想研究院AI Lab范伟：AI决策智能技术在联想的实践

OpenDILab 周航：决策AI在游戏中的设计与应用

羊群加不进去？那就来加猫群叭！深度强化学习版的羊了个羊来了！

DI-drive：自动驾驶领域内第一个开源的研究平台

DI-zoo：目前最全最强的决策AI算法集合

【Insight Time】预训练基础模型盛行当下，决策大模型的前沿技术方案剖析——它来了！

上海交大张伟楠强化学习课程第15讲：AI Agent与决策大模型III

OpenDILab：推动人工智能从感知到决策的跃升

南京大学俞扬：环境模型学习—让强化学习走出游戏

【PPO × Family】第六课：统筹多智能体

【Insight Time】浅谈 AlphaFold 与蛋白质结构预测

【PPO × Family】第一课：开启决策 AI 探索之旅

【Insight Time】清华大学博士超同学带你了解机器人技能模仿学习

【Insight Time】干货！阿卜杜拉国王科技大学计算机科学专业博士生带你深入了解语言模型如何提升 AI 的视觉语言理解能力

超强对话智能体 chatGPT 中的 PPO 究竟什么来头？4分钟带你快速入门强化学习的万能钥匙

上海交大张伟楠强化学习课程第15讲：AI Agent与决策大模型II

【Insight Time】悉大博士Yae带你走近决策大模型——一种通过无标签视频预训练的方法

同济熊溪：基于强化学习与大语言模型的智能网联交通系统决策优化「OR Talk #32」

我从来不用自己剪视频，因为我会用AI

终于玩上了！在Isaac实现unitree H1的运动仿真

没病走两步？！深度强化学习训练AI走路！

【Insight Time】邵神带来全新自动驾驶框架 ReasonNet 再次拿下第一！已被 CVPR 2023 接收

上海交大张伟楠强化学习课程第14讲：多智能体强化学习IV

在家做AI接单，昨天720，分享我的实操方法，悄悄努力，惊艳所有人！！

从模型预测控制到强化学习-11：确定性策略梯度DPG与随机策略梯度SPG，从控制的角度理解(D)DPG, A2C, QAC, REINFORCE

【Insight Time】小白也能听懂的NLP知识分享之预训练语言模型

玩个球的贪婪之道-玩个球

基于引力模型的规则算法-大球球病了二球球瞧

万有引力下的球球作战-logic

基于分层决策的球球大作战智能体实现-重铸429荣光

GoBigger-Explore：基于OpenDILab的多智能体决策智能设计方案分享-OpenDILab算法研究员杨振杰

GoBigger：多智能体决策智能环境设计分享-OpenDILab核心研发人员张明

DI-engine：从多种环境和多种训练pipline的角度探索决策AI技术的不同形态

基于仿真系统的强化学习系列，pybullet仿真系统篇(1)

【Insight Time】席卷顶会投稿关键词热榜的扩散模型到底是什么来头？

OpenDILab 陈若冰：决策AI应用与生态——优化+探索

【PPO × Family】第七课：挖掘黑科技 —— 探秘调优 PPO 的七重境界

清华大学高阳：Mastering Atari Games with Limited Data

中国科学院深圳先进技术研究院胡如云：强化学习在合成生物领域的应用

【PPO × Family】第五课：探索时序建模

【PPO × Family】第四课：解密稀疏奖励空间

联想研究院AI Lab范伟：AI决策智能技术在联想的实践

OpenDILab 周航：决策AI在游戏中的设计与应用

羊群加不进去？那就来加猫群叭！深度强化学习版的羊了个羊来了！

DI-drive：自动驾驶领域内第一个开源的研究平台

DI-zoo：目前最全最强的决策AI算法集合

【Insight Time】预训练基础模型盛行当下，决策大模型的前沿技术方案剖析——它来了！

上海交大张伟楠强化学习课程第15讲：AI Agent与决策大模型III

OpenDILab：推动人工智能从感知到决策的跃升

南京大学俞扬：环境模型学习—让强化学习走出游戏

【PPO × Family】第六课：统筹多智能体

【Insight Time】浅谈 AlphaFold 与蛋白质结构预测

【PPO × Family】第一课：开启决策 AI 探索之旅

【Insight Time】清华大学博士超同学带你了解机器人技能模仿学习

【Insight Time】干货！阿卜杜拉国王科技大学计算机科学专业博士生带你深入了解语言模型如何提升 AI 的视觉语言理解能力

超强对话智能体 chatGPT 中的 PPO 究竟什么来头？4分钟带你快速入门强化学习的万能钥匙

上海交大张伟楠强化学习课程第15讲：AI Agent与决策大模型II

【Insight Time】悉大博士Yae带你走近决策大模型——一种通过无标签视频预训练的方法

同济 熊溪：基于强化学习与大语言模型的智能网联交通系统决策优化「OR Talk #32」

我从来不用自己剪视频，因为我会用AI

终于玩上了！在Isaac实现unitree H1的运动仿真

没病走两步？！深度强化学习训练AI走路！

【Insight Time】邵神带来全新自动驾驶框架 ReasonNet 再次拿下第一！已被 CVPR 2023 接收

上海交大张伟楠强化学习课程第14讲：多智能体强化学习IV

在家做AI接单，昨天720，分享我的实操方法，悄悄努力，惊艳所有人！！

从模型预测控制到强化学习-11：确定性策略梯度DPG与随机策略梯度SPG，从控制的角度理解(D)DPG, A2C, QAC, REINFORCE

【Insight Time】小白也能听懂的NLP知识分享之预训练语言模型

同济熊溪：基于强化学习与大语言模型的智能网联交通系统决策优化「OR Talk #32」