复现 GPT-2 (124M)：从零到英雄系列 Part1 - Andrej Karpathy

发布人

Let&#39;s reproduce GPT-2 (124M)
https://www.youtube.com/watch?v=l8pRSuU81PU
视频中，Andrej Karpathy 继续了他的 &quot;Zero to Hero&quot; 系列，这次的目标是复现 GPT-2 的 124M 版本。他首先提到了 OpenAI 在 2019 年发布 GPT-2 时的情况，包括相关的博客文章、论文和 GitHub 代码库。他强调了在复现 GPT-2 时需要注意的事项，特别是他们将复现的是 124M 参数的模型。

GPT-2 系列包括不同大小的模型，从 124M 到 1.558B 参数不等。Andrej 指出，模型的大小与下游任务的表现（如翻译、摘要、问答等）之间存在一定的比例关系，即模型越大，性能越好。他还提到了 GPT-2 模型的具体参数，如 12 层 Transformer 和 768 维通道，并假设观众对这些术语有一定的了解。

在视频中，Andrej 详细介绍了如何从头开始构建 GPT-2，并展示了他们的实现与原始版本相比的性能。他们能够在几个小时内或一夜之间训练出与 GPT-2 124M 参数模型相当的结果。此外，他还提到了一些待解决的问题，如损失函数的问题、Torch Compile 的启用问题以及数据加载器中的数据排列问题。

最后，Andrej 鼓励观众如果有任何问题或想要讨论的内容，可以在 Discussions 标签下留言，或者在 Issues 或 Pull Requests 中贡献代码。他还提到了 Zero2Hero Discord 社区和 NanoGPT 项目，并表示他将在这些平台上与观众互动。

项目地址：https://github.com/liuzhao1225/YouDub-webui
YouDub 是一个开创性的开源工具，旨在将 YouTube 和其他平台上的高质量视频翻译和配音成中文版本。该工具结合了最新的 AI 技术，包括语音识别、大型语言模型翻译，以及 AI 声音克隆技术，提供与原视频相似的中文配音，为中文用户提供卓越的观看体验。

打开封面下载高清视频观看高清视频视频下载器

复现 GPT-2 (124M)：从零到英雄系列 Part1 - Andrej Karpathy

B站强推！2024公认最通俗易懂的【AI大模型】教程，24集付费课程（附资料）LLM大模型_RAG_大模型微调_多模态

阿里大佬耗时6个月终于把AI大模型录成了完整的视频教程，通俗易懂，学完即可入职，挑战年薪百万！

【李宏毅】2024年公认最好的【LLM大模型】教程！大模型入门到进阶，一套全解决！2024生成式人工智慧-附带课件代码

【整整600集】字节大佬196小时讲完的AI大模型教程（LLM）零基础入门到精通全套教程，全程干货无废话，这还学不会，我退出IT圈！微调/模型训练/私有化部署

超越GPT-4？最新【Llama3大模型】下载安装、功能调用、模型微调、量化部署一小时带你搞懂！4000亿参数最强开源大模型！！！（大语言模型/人工智能课程）

CMU《多模态机器学习|CMU Multimodal Machine Learning, Fall 2023》中英字幕

赛博活佛Andrej Karpathy新教程带你从零构建LLM

我用于增加战斗乐趣的诀窍（开发日志） - Game Endeavor

Andrej教你学大模型【教程测评03/04】

比啃书强太多！这可能是唯一能将GPT4o讲明白的完整版教程了，1小时清楚GPT4o凸显了哪些功能特性，以及使用GPT4打造智能程序，还学不会你来打我！

8分钟解析各种心理情结 - The Paint Explainer

数学中的演化发育原理（TMEB #3） - NanoRooms

密歇根大学《Python程序员的羊驼”课程|Llama2 for Python Programmers》中英字幕

研究人员使用群论加速算法 - 群论简介 - Nemean

【最新AI】官方ChatGPT4o国内怎么免费无限制使用！写论文 chatgpt4.0网站，安装订阅付费手机安卓电脑下载GPT4.0免费教程，100%成功!

国内最新可免费无限制使用的ChatGPT4.0网站。免登录就可以直接，值得你拥有！

MIT《基础模型和生成式AI入门|MIT 6.S087: Foundation Models & Generative AI (2024)》中英字幕

大脑中的记忆构建块 - Artem Kirsanov

量子生物学：生命的隐藏本质 - World Science Festival

在游戏里制作游戏：递归游戏开发 - Sam Hogan

【中配】如何自学纯数学：一步步指南 - Aleph 0

数学与物理学中的所有重要公式：深入解析与应用 - ThoughtThrill

星际殖民大全 - Isaac Arthur

Transformer模型能否进行隐式的推理？一个关于Grokking和泛化的深入探索

Ray Dalio讲述应对变化世界秩序的原则 - Principles by Ray Dalio

77、Llama源码讲解之GroupQueryAttention和KV-cache

【国内白嫖】6月20日可免费无限制使用的ChatGPT4.0网站。免登录就可以直接，值得你拥有！

数学家的武器：分类理论及其重要性1.0 - Eyesomorphic

注意力机制背后的数学原理：关键字、查询和值矩阵

Andrej Karpathy Keynote & Winner Pitches at UCB AI Hackathon 24 Awards Ceremony

小波：数学显微镜 - Artem Kirsanov

线性代数的未来：随机化之道 - Mutual Information

Numberphile的平方和问题求解揭示 - HexagonVideos

Llama3模型,从零构件复现,使用RLHF方法训练.代码实战.

【网友炸锅了】Andrej Karpathy提出未来计算机2.0构想，类似人脑？！

【中配】电磁场，电力和磁力是如何产生的 - ScienceClic

宇宙边缘之外：探索未知 - Space Matters

UCB CS 194/294-267 Understanding Large Language Models: Foundations and Safety

开始量子力学之前，先了解这些 - Physics with Elliot

B站强推！2024公认最通俗易懂的【AI大模型】教程，全套100集付费！收藏起来偷偷学！

【整整600集】字节大佬196小时讲完的AI大模型教程（LLM）零基础入门到精通全套教程，全程干货无废话，这还学不会，我退出IT圈！微调/模型训练/私有化部署