V
主页
karpathy 分享从马尔代夫水屋凌晨写代码到大模型神话:llm.c的崛起之路
发布人
Karpathy的GPU MODE研讨会:llm.c背后的故事 🚀 llm.c 的起源 在没有 PyTorch 的情况下,Karpathy 重新构建了数组、自动求导、设备、数据类型以及分布式系统。他的旅程包括将 PyTorch 的层转为更底层的实现,编写自定义的前向和反向传播,并将所有神经网络层整合到一个可移植、无依赖的 C 文件中。这种方法确保内存只规划和分配一次,达到最大的确定性。 🌊 马尔代夫的编程灵感 大部分代码是在凌晨 1 点到 7 点之间,Karpathy 坐在马尔代夫水屋门廊上完成的。强烈推荐这种开发方式(笑)! 💻 GPU 加速 Karpathy 将所有内容移植到 GPU 上,使用 CUDA fp32 运行,矩阵乘法使用 cuBLAS,注意力机制使用 cuDNN 的 flash-attention。他引入了 bfloat16 混合精度,并通过内核融合实现了更好的优化。 ⚙️ 多 GPU 扩展 增加了多 GPU 训练(NCCL)、多节点支持(使用 MPI 或 socket)以及优化器分片。Karpathy 在 8 台 H100 GPU 上训练了 GPT-2(1.6B),耗时 24 小时,花费 672 美元,比 PyTorch nightly 版本节省了 29% 内存,训练速度提升了 19%。 🌍 开源开发的力量 Llama 3 的训练移植即将完成,还有许多其他值得注意的分支。全球开发者正积极贡献力量,共同推动这个项目的进化。 🤖 最后的思考 像 Python 和 PyTorch 这样的抽象是为了弥补人类知识和智力的有限性。随着 AI 不断增强,未来的大模型(LLM)可能会像 llm.c 一样,为任何应用动态生成自定义的二进制文件,打破并重构所有抽象。
打开封面
下载高清视频
观看高清视频
视频下载器
Diffusion Models From Scratch 数学原理解释
freeCodeCamp推出高质量CUDA编程教程--GPU高性能计算 -- 第一部分
freeCodeCamp推出高质量CUDA编程教程--GPU高性能计算 -- 第四部分
freeCodeCamp推出高质量CUDA编程教程--GPU高性能计算 -- 第三部分
freeCodeCamp推出高质量CUDA编程教程--GPU高性能计算 -- 第二部分
RTX 3060 Ti vs RTX 4060 Ti | 2024新游重测 - 1080p分辨率10款游戏对比测试 | 作者:Testing Games
【GPU体系结构基础 CoffeeBeforeArch】
【并行计算 CS149 2023】斯坦福大学—中英字幕
黄仁勋:AI算力集群会扩展到100万芯片,没有任何物理定律可阻止
【中英】黄仁勋对话孙正义:共同探讨 AI 和加速计算的可能性|AI Summit 24
显卡是如何工作的
黄仁勋口中的“世界上最快的超级计算机”,揭秘马斯克XAI人工智能训练集群Colossus
逆天改命?英特尔第二代ARC显卡Battlemage即将发布:性能目标或将超越4060,并向4070看齐!【宅同学】
NVIDIA 的 Blackwell Ultra 将于 2025 年推出,Rubin 将于 2026 年推出,Rubin Ultra 将于 202
探秘全球最大GPU集群,马斯克花费数十亿美元抢购20万颗GPU组成的xAi训练中心
CFD从1到2 Lecture 2.3 浸没边界法的分类,discrete vs. continuous,sharp vs. diffused
你说这又是一套积木人?!性价比直接拉满,布鲁可超越版群星版圣斗士分享
CFD从1到2 Lecture 0.2 计算流体力学从1到2课程全资料介绍上
马斯克超级AI集群曝光!带你直击100000 GPU 的服务器机房核心
NVIDIA DLSS 3.5 光追升级支持多款游戏提升!!!
独家讲解:英伟达RTX4090 GPU八卡机的“市场乱象”
英伟达SC视频三分钟精华,实时CFD模拟,ML和CAE的结合
日本 AI 算力大跃进,我国却遭 “断芯锁算”,算力之战何去何从?AI大模型算力 GPU
Justin Bieber 教你从零开始编写多模态大模型 1
每年消耗1.5万亿度电:AI是否是一场大骗局?深入解析背后的能源争夺战
【CUDA 入门课程 CoffeeBeforeArch】
(Gw论坛)GTS∽18
超云闪耀2024CDCC大会现场,一起来围观全新发布的AIDC冷却液及明星产品!
娃娃终于有灵魂了!全球首创!大模型智能Ai对话语言实体娃娃【XYdoll】
听泉鉴模玩
AI狂潮下,加速效果比gpu更好的FPGA为何黯然失色?
OpenAI 最智能模型O1 中文介绍版
真香!卡皇RTX2080Ti上手体验
模型大佬Laser Creation-World盘点6年来自己最满意的作品 | 作者:Laser Creation-World
AMD早期广告:砸掉你的非AMD电脑
SSAO爆改伪光追
【CUDA 编程 elliotarledge】
思维模型99%:NLP理解层次。能给你无敌洞察力和高纬解决思路的万能模型
如何用Aseprite和Godot绘制一棵树【像素艺术】教程
OpenAI 最新模型 o1 功能测试集