V
主页
黄培耕 - Nash Q-Leaning
发布人
本视频介绍了早期多智体强化学习领域的经典算法Nash Q-Learning, 并着重讲解了其理论部分 先导知识列表 强化学习,博弈论,不动点理论
打开封面
下载高清视频
观看高清视频
视频下载器
【GTO分析】如何击败过度松凶牌手
黄泽人 - QMIX
陈伟哲 - TD3
陈天奇 - TVM
粟锐 - DDPG
侯博涵 - AutoTVM
秦佳锐 - RippleNet
王鸿伟 - Knowledge Graph Neural Networks for Recommender Systems
何泰然 - Generative Adversarial Imitation Learning
3个故事告诉你,换一种方式就能解决问题
张文涛 - LM-LSTM-CRF
【GTO分析】世界最强锦标赛牌手Addamo
能当上大老板的人,手段到底有多狠
RL vs MPC,LeCun:MPC,胜!我不看好强化学习
【GTO分析】新的战争-Linus vs Stefan
【GTO分析】Limitless 起飞, Linus 陨落
【GTO分析】哈利波特杀死了他的对手
冯思远-Learning-based Deep Learning Compiler
【浙大知识图谱完整版】不愧是浙大教授!5小时让我搞定了知识图谱!知识图谱/计算机视觉/神经网络
2024年111期大乐透预感
为什么Isaac gym 读取的速度不等于位置的微分呀,用pd算的力矩不就是错的吗
(教材+源码)【动手学深度学习v2】看原著大佬李沐如何通俗易懂的讲解深度学习!真的建议收藏!(人工智能、深度学习、机器学习算法、计算机视觉、Pytorch)
张海峰-从博弈论到多智能体强化学习
【GTO分析】德州扑克的游戏水平分级
强推!这可能是B站最全的(Python+机器学习+深度学习)系列课程了,不愧是上海交大和腾讯联合出品!堪称人工智能系列课程的巅峰之作!-人工智能/深度学习
pairwise motion piror与原版amp高速运动对比效果
林己 - TSM(Temporal Shift Module)
卡耐基梅隆大学 MidasTouch——一个用于在线全局定位的视触觉感知系统
苏起冬 - pix2pix
一次性训了一个带fall recovery 和 velocity tracking的policy,目前步态看着还成
【GTO分析】残暴的Michael Addamo
基于仿真系统的强化学习系列,pybullet仿真系统篇(1)
Jason Koon:自律决定扑克的高度
陈伟哲-DeepFM
帮你在复杂的局面中看透真相❗️丨《博弈论》
周铭 - DQN
OpenAI o1能像人类一样「深思熟虑」,作者们顿悟了这些问题
深度强化学习Carla实战-SAC算法(一)
Timothy Adams:低调的加拿大高额职业玩家
【GTO分析】三人底池