让我们一起构建ChatGPT，用代码，拼出来

发布人

【中英字幕】Let&#39;s build GPT: from scratch, in code, spelled out：特斯拉技术总监从0构建ChatGPT，用代码，拼出来

链接：https://youtu.be/kCc8FmEb1nY

Chapters:
00:00:00 intro: ChatGPT, Transformers, nanoGPT, Shakespeare
baseline language modeling, code setup
00:07:52 reading and exploring the data
00:09:28 tokenization, train/val split
00:14:27 data loader: batches of chunks of data
00:22:11 simplest baseline: bigram language model, loss, generation
00:34:53 training the bigram model
00:38:00 port our code to a script
Building the &quot;self-attention&quot;
00:42:13 version 1: averaging past context with for loops, the weakest form of aggregation
00:47:11 the trick in self-attention: matrix multiply as weighted aggregation
00:51:54 version 2: using matrix multiply
00:54:42 version 3: adding softmax
00:58:26 minor code cleanup
01:00:18 positional encoding
01:02:00 THE CRUX OF THE VIDEO: version 4: self-attention
01:11:38 note 1: attention as communication
01:12:46 note 2: attention has no notion of space, operates over sets
01:13:40 note 3: there is no communication across batch dimension
01:14:14 note 4: encoder blocks vs. decoder blocks
01:15:39 note 5: attention vs. self-attention vs. cross-attention
01:16:56 note 6: &quot;scaled&quot; self-attention. why divide by sqrt(head_size)
Building the Transformer
01:19:11 inserting a single self-attention block to our network
01:21:59 multi-headed self-attention
01:24:25 feedforward layers of transformer block
01:26:48 residual connections
01:32:51 layernorm (and its relationship to our previous batchnorm)
01:37:49 scaling up the model! creating a few variables. adding dropout
Notes on Transformer
01:42:39 encoder vs. decoder vs. both (?) Transformers
01:46:22 super quick walkthrough of nanoGPT, batched multi-headed self-attention
01:48:53 back to ChatGPT, GPT-3, pretraining vs. finetuning, RLHF
01:54:32 conclusions

打开封面下载高清视频观看高清视频视频下载器

让我们一起构建ChatGPT，用代码，拼出来

谷歌的下一个AI爆款：Learn about

你这雷军确实是AI啊

【AI News】｜泄露消息称“GPT-5表现出递减收益”，山姆·阿尔特曼“哈哈”

第97集 | 使用 Ultralytics YOLO11 进行手部关键点估计 | 人手姿态估计教程

我的机器人火了，大家都在问他有没有“意识”？

川宝你终于来了 我的老年痴呆突然痊愈了

李彦宏：大模型基本消除了幻觉

【YOLOv11速通】迪哥13分钟教你使用自己的数据集从环境搭建到模型训练、推理、导出一条龙实操，入门到精通！-YOLO/目标检测/人工智能/计算机视觉

北大和谷歌提出tokenformer 把模型参数当做token 大幅降低模型扩容成本

【强推】研一、研二必学！60套深度学习项目实战 ，原理详解+项目实战，看完就能跑通，毕设有救了！-人工智能/深度学习/机器学习/神经网络

什么是扩散模型？

强推！草履虫都能听懂！B站最全最详细的【时间序列预测模型】教程，从入门到精通！（LSTM/Informer/ARIMA/PandasTransformer）

国外小哥哥手把手带你用PyTorch写扩散模型 (Diffusion Models)

最大似然，解释得很清楚 !!!

哈工大学生研发的桌面轮足机器人，目前已量产。#轮足机器人 #桌面机器人 #国产机器人 #机器人

keras之父从谷歌离职 tensorflow彻底败给了pytorch

外国人使唤不动中国机器狗，直到旁边标准普通话响起……

介绍首个拥有真实肌肉的合成AI人类（假人即将问世）

可以改变一切的模型：Alpaca重大突破 (ft. Apple's LLM, BritGPT, Ernie and AlexaTM)

GPT-o2推理超神，GPT-o1为何被 “冷落”?大模型训练

机器学习大战片哥片姐

为什么大学计算机全是深度学习？

【中英字幕】ChatGPT前世之GPT3 & Beyond

逻辑回归，清晰明了~

LLM推理加速新范式！推测解码（Speculative Decoding）最新综述

从选题到投稿，一篇顶会论文是如何产出的，顶会审稿人详解科研论文写作全流程！

OpenRLHF：大规模分布式RLHF训练系统介绍

语言学之父乔姆斯基谈ChatGPT说是高科技剽窃，对语言学价值不大

英伟达黄仁勋再放大招，三大工具颠覆机器人的训练和开发，物理人工智能时代已到来！

从此，人工智能对你来说不再是一个彻底的黑箱。

深度学习环境配置一套搞定：anaconda+pytorch+pycharm+cuda全详解，带你从0配置环境到跑通代码！

国外小哥哥动画拆分讲解Transformer

【官方双语】如何实现ChatGPT同款的Transformer编程？一步一步带你用PyTorch实现！

又一篇Nature！可解释GNN今年持续发力，创新思路有时候就这么简单！

如何用OrangePi 5Pro构建一个强大的迷你电脑？

FacTool: 生成人工智能中的事实检测 - 用于多任务和多领域场景的工具增强框架

小波变换+KAN！撬动A会的王炸思路，创新点拉满！

EMNLP2024分享会之模型对齐主题

【中英字幕】CS224N Winter2021 | Lecture 1 - Intro & Word Vectors

2024.11.24组会-生成模型专题汇报

川宝你终于来了我的老年痴呆突然痊愈了

【强推】研一、研二必学！60套深度学习项目实战，原理详解+项目实战，看完就能跑通，毕设有救了！-人工智能/深度学习/机器学习/神经网络