V
主页
karpathy 分享从马尔代夫水屋凌晨写代码到大模型神话:llm.c的崛起之路
发布人
Karpathy的GPU MODE研讨会:llm.c背后的故事 🚀 llm.c 的起源 在没有 PyTorch 的情况下,Karpathy 重新构建了数组、自动求导、设备、数据类型以及分布式系统。他的旅程包括将 PyTorch 的层转为更底层的实现,编写自定义的前向和反向传播,并将所有神经网络层整合到一个可移植、无依赖的 C 文件中。这种方法确保内存只规划和分配一次,达到最大的确定性。 🌊 马尔代夫的编程灵感 大部分代码是在凌晨 1 点到 7 点之间,Karpathy 坐在马尔代夫水屋门廊上完成的。强烈推荐这种开发方式(笑)! 💻 GPU 加速 Karpathy 将所有内容移植到 GPU 上,使用 CUDA fp32 运行,矩阵乘法使用 cuBLAS,注意力机制使用 cuDNN 的 flash-attention。他引入了 bfloat16 混合精度,并通过内核融合实现了更好的优化。 ⚙️ 多 GPU 扩展 增加了多 GPU 训练(NCCL)、多节点支持(使用 MPI 或 socket)以及优化器分片。Karpathy 在 8 台 H100 GPU 上训练了 GPT-2(1.6B),耗时 24 小时,花费 672 美元,比 PyTorch nightly 版本节省了 29% 内存,训练速度提升了 19%。 🌍 开源开发的力量 Llama 3 的训练移植即将完成,还有许多其他值得注意的分支。全球开发者正积极贡献力量,共同推动这个项目的进化。 🤖 最后的思考 像 Python 和 PyTorch 这样的抽象是为了弥补人类知识和智力的有限性。随着 AI 不断增强,未来的大模型(LLM)可能会像 llm.c 一样,为任何应用动态生成自定义的二进制文件,打破并重构所有抽象。
打开封面
下载高清视频
观看高清视频
视频下载器
Andrej Karpathy,llm.c开发历程
freeCodeCamp推出高质量CUDA编程教程--GPU高性能计算 -- 第四部分
freeCodeCamp推出高质量CUDA编程教程--GPU高性能计算 -- 第三部分
【黄仁勋】斯坦福大学演讲:远见的力量
AI 为什么离不开 GPU?顺序代码 vs. 并行计算!
《大规模并行处理器编程实战 Programming Massively Parallel Processors: A Hands-on Approach》
【古董硬件】捷克垃圾佬展示新收的老显卡 | 作者:RETRO Hardware
5090它来了 - The RTX 5090-- Nvidia has gone Mad
开源多模态模型Molmo发布,超越GPT4V,技术领先未来!
freeCodeCamp推出高质量CUDA编程教程--GPU高性能计算 -- 第二部分
NVIDIA发布新开源Linux驱动代码以支持GPU虚拟化“vGPU”
CRAM技术亮相!英业达GPU将被取代?!
AI为什么这么依赖GPU设备?4分钟给你讲明白AI和GPU的“鱼水之欢”。#英伟达 #GPU #知识科普 #ai #深度学习
【精翻中英】16分钟看英伟达2024GTC:Blackwell 平台 | Omniverse|Project Groot | 黄仁勋
CUDA GPU编程 |11小时教程2024版-上集【中英精校】
完整的CUDA编程课程:学习 GPU 和并行编程,成为 CUDA 专家
龙芯自研GPU来了!对标英伟达RTX2080
iPhone16升级A18处理器 CPU 提升30%、GPU 提升 40%
freeCodeCamp推出高质量CUDA编程教程--GPU高性能计算 -- 第一部分
【黄仁勋】展示英伟达全套“军火”:Blackwell只是前菜,电气机械奇迹NVLink压轴!
高清视频:显卡/GPU卡图形渲染的工作原理
显卡日报9月23日|ALEO:史上最短显卡矿潮
HuggingChat Mac应用,一键免费体验最新AI大模型
AI芯片互联技术除了NVLink,还有谁?
8700XT 定价来到3000元
【黄仁勋】从洗碗工到科技领袖:用60年勤奋工作换来英伟达的伟大
3.1异构万卡集群,GPU与国产计算卡芯片异构通信
GPU 模式
Stanford CS149 并行计算,GPU架构和CUDA编程 7
显卡日报9月22日|英特尔Lunar Lake核显性能提升15%
CPU 快到没对手!A18 芯片直接飞跃两代,Apple Intelligence 能否驱动换机潮?
目前的自改和拥有的第三方人仔
4090/4090D下月停产,Intel Lunar Lake续航超M3,酷睿Ultra 200K蓄势待发,A卡大招FSR4秘密开发中
显卡日报9月13日|RTX4070阉割版4K帧数损失至高10%
显卡日报9月28日|RTX5090和5080规格确定
显卡日报9月19日|炒作升级:显卡挖矿又要来了?
打死不买你家显卡:5090核心数提升了一张4070?
显卡日报9月20日|RTX4090/4090D停产存疑
【WF24】全装备孔子,李白,杜甫,圣人计划启动!封神榜303toys全新品
BVVD神车,strv122模型上色旧化教程