V
主页
复现 GPT-2 (124M):从零到英雄系列 Part1 - Andrej Karpathy
发布人
Let's reproduce GPT-2 (124M) https://www.youtube.com/watch?v=l8pRSuU81PU 视频中,Andrej Karpathy 继续了他的 "Zero to Hero" 系列,这次的目标是复现 GPT-2 的 124M 版本。他首先提到了 OpenAI 在 2019 年发布 GPT-2 时的情况,包括相关的博客文章、论文和 GitHub 代码库。他强调了在复现 GPT-2 时需要注意的事项,特别是他们将复现的是 124M 参数的模型。 GPT-2 系列包括不同大小的模型,从 124M 到 1.558B 参数不等。Andrej 指出,模型的大小与下游任务的表现(如翻译、摘要、问答等)之间存在一定的比例关系,即模型越大,性能越好。他还提到了 GPT-2 模型的具体参数,如 12 层 Transformer 和 768 维通道,并假设观众对这些术语有一定的了解。 在视频中,Andrej 详细介绍了如何从头开始构建 GPT-2,并展示了他们的实现与原始版本相比的性能。他们能够在几个小时内或一夜之间训练出与 GPT-2 124M 参数模型相当的结果。此外,他还提到了一些待解决的问题,如损失函数的问题、Torch Compile 的启用问题以及数据加载器中的数据排列问题。 最后,Andrej 鼓励观众如果有任何问题或想要讨论的内容,可以在 Discussions 标签下留言,或者在 Issues 或 Pull Requests 中贡献代码。他还提到了 Zero2Hero Discord 社区和 NanoGPT 项目,并表示他将在这些平台上与观众互动。 项目地址:https://github.com/liuzhao1225/YouDub-webui YouDub 是一个开创性的开源工具,旨在将 YouTube 和其他平台上的高质量视频翻译和配音成中文版本。该工具结合了最新的 AI 技术,包括语音识别、大型语言模型翻译,以及 AI 声音克隆技术,提供与原视频相似的中文配音,为中文用户提供卓越的观看体验。
打开封面
下载高清视频
观看高清视频
视频下载器
B站强推!2024公认最通俗易懂的【AI大模型】教程,24集付费课程(附资料)LLM大模型_RAG_大模型微调_多模态
阿里大佬耗时6个月终于把AI大模型录成了完整的视频教程,通俗易懂,学完即可入职,挑战年薪百万!
【李宏毅】2024年公认最好的【LLM大模型】教程!大模型入门到进阶,一套全解决!2024生成式人工智慧-附带课件代码
【整整600集】字节大佬196小时讲完的AI大模型教程(LLM)零基础入门到精通全套教程,全程干货无废话,这还学不会,我退出IT圈!微调/模型训练/私有化部署
超越GPT-4?最新【Llama3大模型】下载安装、功能调用、模型微调、量化部署一小时带你搞懂!4000亿参数最强开源大模型!!!(大语言模型/人工智能课程)
CMU《多模态机器学习|CMU Multimodal Machine Learning, Fall 2023》中英字幕
赛博活佛Andrej Karpathy新教程带你从零构建LLM
我用于增加战斗乐趣的诀窍(开发日志) - Game Endeavor
Andrej教你学大模型【教程测评03/04】
比啃书强太多!这可能是唯一能将GPT4o讲明白的完整版教程了,1小时清楚GPT4o凸显了哪些功能特性,以及使用GPT4打造智能程序,还学不会你来打我!
8分钟解析各种心理情结 - The Paint Explainer
数学中的演化发育原理(TMEB #3) - NanoRooms
密歇根大学《Python程序员的羊驼”课程|Llama2 for Python Programmers》中英字幕
研究人员使用群论加速算法 - 群论简介 - Nemean
【最新AI】官方ChatGPT4o国内怎么免费无限制使用!写论文 chatgpt4.0网站,安装订阅付费手机安卓电脑下载GPT4.0免费教程,100%成功!
国内最新可免费无限制使用的ChatGPT4.0网站。免登录就可以直接,值得你拥有!
MIT《基础模型和生成式AI入门|MIT 6.S087: Foundation Models & Generative AI (2024)》中英字幕
大脑中的记忆构建块 - Artem Kirsanov
量子生物学:生命的隐藏本质 - World Science Festival
在游戏里制作游戏:递归游戏开发 - Sam Hogan
【中配】如何自学纯数学:一步步指南 - Aleph 0
数学与物理学中的所有重要公式:深入解析与应用 - ThoughtThrill
星际殖民大全 - Isaac Arthur
Transformer模型能否进行隐式的推理?一个关于Grokking和泛化的深入探索
Ray Dalio讲述应对变化世界秩序的原则 - Principles by Ray Dalio
77、Llama源码讲解之GroupQueryAttention和KV-cache
【国内白嫖】6月20日可免费无限制使用的ChatGPT4.0网站。免登录就可以直接,值得你拥有!
数学家的武器:分类理论及其重要性1.0 - Eyesomorphic
注意力机制背后的数学原理:关键字、查询和值矩阵
Andrej Karpathy Keynote & Winner Pitches at UCB AI Hackathon 24 Awards Ceremony
小波:数学显微镜 - Artem Kirsanov
线性代数的未来:随机化之道 - Mutual Information
Numberphile的平方和问题求解揭示 - HexagonVideos
Llama3模型,从零构件复现,使用RLHF方法训练.代码实战.
【网友炸锅了】Andrej Karpathy提出未来计算机2.0构想,类似人脑?!
【中配】电磁场,电力和磁力是如何产生的 - ScienceClic
宇宙边缘之外:探索未知 - Space Matters
UCB CS 194/294-267 Understanding Large Language Models: Foundations and Safety
开始量子力学之前,先了解这些 - Physics with Elliot
B站强推!2024公认最通俗易懂的【AI大模型】教程,全套100集付费!收藏起来偷偷学!