【AI Warehouse 中字】AI学习密室逃脱（基于强化学习理论）

发布人

https://www.youtube.com/watch?v=v3UBlEJDXR0&amp;t=1s
自翻译，请多指正
AI Warehouse在原视频置顶评论中做了进一步说明：
这个8分钟的视频花了100多个小时来制作！视频中的所有内容（音乐除外）完全由我使用Unity创作，所以请点赞并订阅！:D

训练时间：
1号密室：10分钟
2号密室：20分钟
3号密室：29分钟
4号密室：48分钟
5号密室：5小时42分钟
总训练时间：7小时29分钟

请注意：尽管您在视频中只看得见一个Albert，但实际上有大约50-100个Albert和他所在密室的副本同时在幕后进行训练，这把我需要编辑的视频长度从500小时压缩到了7小时。

Albert使用强化学习理论进行训练，这意味着他会因做了正确的事（如踩到压力板）而获得奖励，并因做错事（如从平台上掉下来或撞到墙壁/障碍物）而受到惩罚。在Albert完成每次尝试后，系统会分析他采取的行动，并使用PPO（近端策略优化）调整神经网络（Albert的大脑）中的权重，以优先采取导致积极结果的行动，并避免采取导致消极结果的行动。

Albert的所有输入都来自于他的“视觉”，也就是激光投射。共有21个激光投射，7个冲下，7个冲前，7个在头顶上方，最大视角为70°，以试图模仿我们的视觉。每个激光投射都负责Albert神经网络中的两种输入内容：与物体的距离（如果有的话）以及物体的类型（压力板、障碍物、地面）。我还将Albert的视野叠加了6次，这样他就可以拥有接近于短期记忆的能力（只有一点点），使他一旦在房间里发现一个压力板后，就会采取行动接近它，哪怕那块压力板变得不再直接可见。

在第一间密室里，Albert从随机移动开始，直到他无意间踩到压力板并打开了门，这给了他一个奖励。这种奖励会使控制他行为的神经网络进行更新以尝试复制该结果，并且每个压力板都会导致这种变化，直到Albert打开门并能够（通过一个隐形的压力板）进到下一间密室里。Albert进入下一间密室后，重复相同的过程，并继续使用让Albert逃离前一间密室的神经网络。

对于那些认为我伪造了这个视频的人：
伪造它可能比真正制造它要花更长的时间，我使用Unity的ML-Agents工具包来简化它，但我之前也尝试过从零开始做一个AI（效果并不理想）。这个AI可能比您看过的其他AI更流畅，这是因为我只允许AI每10个academy steps（游戏刻）做1次决策，所以，比如说当它开始转向时，它就必须得保持这个转向运动10个game tick。我这样做是因为我不喜欢让AI在每一个游戏刻都要做出决策时，它的那种惶恐不安的感觉。此外，您在视频中只看得见一个AI，但幕后有大约50-100个Albert和他所在密室的副本在同时训练以加快训练过程。我没有让它们都在同一间密室里训练的原因是我希望在录制过程中只跟拍一个角色。Albert一直使用同一个神经网络，您只需要在使用Unity训练AI时，在命令末尾添加“--resume”，就可以让它保持使用同一个大脑了。Unity的ML-Agents让AI变得非常简单！

如果您对我应该让Albert学习如何做什么有其他想法，请告诉我！:D

打开封面下载高清视频观看高清视频视频下载器

【AI Warehouse 中字】AI学习密室逃脱（基于强化学习理论）

阿尔伯特的进化：学习玩捉人游戏啦！

【从放弃到精通】B站讲的最好的卡尔曼滤波器-目标追踪课程，目标追踪—计算机博士精讲卡尔曼滤波算法教程，从理论到实战，不再走弯路！（matlab_卡尔曼滤波原理)

[强化学习]为什么我做的实验结果和论文里的结果不一样

【AI女友】全站首发！无限制无敏感词AI聊天？，百种AI女友，沉浸体验皇帝的快乐！瑟瑟到天明！

2024最火的两个模型：Informer+LSTM两大时间序列预测模型，论文精读+代码复现，究极通俗易懂！——人工智能|AI|机器学习|深度学习

太全了！2024李宏毅AI人工智能教程合集！一口气带你刷完机器学习、深度学习、强化学习、神经网络和自然语言处理！真的比盲目自学好多了！

全新attention突破传统！谷歌发布边界注意力超越像素级检测精度

（强推）Transformer模型最通俗易懂的讲解，零基础也能听懂！看计算机大佬如何讲解Transformer原理！（人工智能、深度学习、机器学习、图像处理）

【强化学习导论】多伦多大学精品公开课！深度强化学习/多智能体强化学习/神经网络

中國AI機器人仿生「微表情」🤖機械狗首現軍演❗️Made By China YYDS

请问强化学习的损失是上升的怎么回事

【比刷剧还爽！】太完整了！中国科学院大学和上海交大强联合的（PyTorch+深度学习+强化学习+机器学习）课程分享！快速入门极简单——人工智能_AI_神经网络

冒死上传！花9880买来的【智慧交通】企业级项目实战教程，全程精细讲解！核心知识点统统给你讲明白！赶紧收藏码住！

发论文idea来了，强化学习+Transformer 29个创新点汇总！ 再也不用担心发论文了

基于YOLOV8的疲劳检测，考试破防周，你疲劳吗？

【强化学习】不愧是多伦多爆课强化学习导论课程！——深度学习/深度强化学习/人工智能

超全超简单！一口气刷完CNN、RNN、GAN、GNN、DQN、Transformer、LSTM七大深度学习神经网络算法！真的比刷剧还爽！（人工智能\机器学习）

CVPR2024最佳学生论文太强了！中国学生的榜样！这篇论文强烈建议所有学生好好阅读，入门复现！

【毕设有救了】终于有人把OpenCV最新最全实战项目讲清楚了，学习计算机视觉图像处理必备，练完即可毕业，毕设有救了

【用YOLOv8进行目标检测和跟踪】不懂代码无脑照搬也能成功，太简单了！

太厉害了 已跪！终于有人能把OpenCV图像处理+YOLO目标检测讲的这么通俗易懂了，计算机视觉付费全套教程无偿分享给大家！-深度学习丨计算机视觉丨YOLO

为什么说强化学习在近年不会被广泛应用？

目前B站讲的最透彻的3D点云全套教程，包含点云配准、点云分割、点云补全及PointNet算法等核心知识！强烈建议收藏！

机器智能硕士【几何深度学习】课程！将几何先验知识融入深度学习模型！物理、强化学习、transformer、图神经网络、数学

代码功底差？还在愁不会修改代码？搞深度学习只是为了发paper毕业？那你就更要进来看看了！

你们都从导师身上学到了什么？

人工智能机器人一体化假肢、义肢、人造机器腿来啦 | 强化学习 义肢机器人大模型#人形机器人

卷积到底怎么卷？输入层、卷积层、池化层、全连接层、输出层...草履虫都能看懂的卷积神经网络理论详解与项目实战！

太牛了！颠覆传统【深度强化学习】，被应用于多个经典强化学习算法中的异步强化学习方法究竟有何跨时代意义？一篇论文解析告诉你！！！

2024年必看！【MATLAB与机器学习算法】听懂人话就能学会！毕业设计/研究生/神经网络工具箱/机器学习/数学建模matlab

【PyTorch深度学习实战案例】90个练手项目合集，九天练完，练完即可就业！直接拿下（很少有人可以把pytorch讲的如此通俗易懂了）

谁懂啊......博士第六年还没发Paper是一种什么样的体验？

太全了...！从入门到进阶，一口气学完YOLO目标检测算法！存下吧，内含SSD、FasterRCNN、FastRCNN、SPPNet、RCNN等YOLO全部干货

强推！上海交大、腾讯、中国科学院三方强强联合的【python+机器学习+深度学习】系列课程，堪称人工智能系列课程的巅峰之作！-人工智能/深度学习/机器学习

在CV界，传统卷积已经彻底输给Transformer了吗？

全网最强YOLOv8 推理及训练（代码实战）3小时就把导师三年没让我搞明白的计算机视觉YOLO讲明白了！简直让我茅塞顿开！-人工智能/YOLOv8/AI

天秀之作！CVPR24满分带你解读神经场网络模型

2024智源大会 特邀报告 Reinforcement Learning with Large Datasets

4K光追的强化学习——IsaacSimLab(Orbit)测试

09大模型全栈-强化学习02-RLHF前言LLM强化学习

发论文idea来了，强化学习+Transformer 29个创新点汇总！再也不用担心发论文了

太厉害了已跪！终于有人能把OpenCV图像处理+YOLO目标检测讲的这么通俗易懂了，计算机视觉付费全套教程无偿分享给大家！-深度学习丨计算机视觉丨YOLO

人工智能机器人一体化假肢、义肢、人造机器腿来啦 | 强化学习义肢机器人大模型#人形机器人

2024智源大会特邀报告 Reinforcement Learning with Large Datasets