V
主页
让我们一起构建ChatGPT,用代码,拼出来
发布人
【中英字幕】Let's build GPT: from scratch, in code, spelled out:特斯拉技术总监从0构建ChatGPT,用代码,拼出来 链接:https://youtu.be/kCc8FmEb1nY Chapters: 00:00:00 intro: ChatGPT, Transformers, nanoGPT, Shakespeare baseline language modeling, code setup 00:07:52 reading and exploring the data 00:09:28 tokenization, train/val split 00:14:27 data loader: batches of chunks of data 00:22:11 simplest baseline: bigram language model, loss, generation 00:34:53 training the bigram model 00:38:00 port our code to a script Building the "self-attention" 00:42:13 version 1: averaging past context with for loops, the weakest form of aggregation 00:47:11 the trick in self-attention: matrix multiply as weighted aggregation 00:51:54 version 2: using matrix multiply 00:54:42 version 3: adding softmax 00:58:26 minor code cleanup 01:00:18 positional encoding 01:02:00 THE CRUX OF THE VIDEO: version 4: self-attention 01:11:38 note 1: attention as communication 01:12:46 note 2: attention has no notion of space, operates over sets 01:13:40 note 3: there is no communication across batch dimension 01:14:14 note 4: encoder blocks vs. decoder blocks 01:15:39 note 5: attention vs. self-attention vs. cross-attention 01:16:56 note 6: "scaled" self-attention. why divide by sqrt(head_size) Building the Transformer 01:19:11 inserting a single self-attention block to our network 01:21:59 multi-headed self-attention 01:24:25 feedforward layers of transformer block 01:26:48 residual connections 01:32:51 layernorm (and its relationship to our previous batchnorm) 01:37:49 scaling up the model! creating a few variables. adding dropout Notes on Transformer 01:42:39 encoder vs. decoder vs. both (?) Transformers 01:46:22 super quick walkthrough of nanoGPT, batched multi-headed self-attention 01:48:53 back to ChatGPT, GPT-3, pretraining vs. finetuning, RLHF 01:54:32 conclusions
打开封面
下载高清视频
观看高清视频
视频下载器
谷歌的下一个AI爆款:Learn about
你这雷军确实是AI啊
【AI News】|泄露消息称“GPT-5表现出递减收益”,山姆·阿尔特曼“哈哈”
第97集 | 使用 Ultralytics YOLO11 进行手部关键点估计 | 人手姿态估计教程
我的机器人火了,大家都在问他有没有“意识”?
川宝你终于来了 我的老年痴呆突然痊愈了
李彦宏:大模型基本消除了幻觉
【YOLOv11速通】迪哥13分钟教你使用自己的数据集从环境搭建到模型训练、推理、导出一条龙实操,入门到精通!-YOLO/目标检测/人工智能/计算机视觉
北大和谷歌提出tokenformer 把模型参数当做token 大幅降低模型扩容成本
【强推】研一、研二必学!60套深度学习项目实战 ,原理详解+项目实战,看完就能跑通,毕设有救了!-人工智能/深度学习/机器学习/神经网络
什么是扩散模型?
强推!草履虫都能听懂!B站最全最详细的【时间序列预测模型】教程,从入门到精通!(LSTM/Informer/ARIMA/PandasTransformer)
国外小哥哥手把手带你用PyTorch写扩散模型 (Diffusion Models)
最大似然,解释得很清楚 !!!
哈工大学生研发的桌面轮足机器人,目前已量产。#轮足机器人 #桌面机器人 #国产机器人 #机器人
keras之父从谷歌离职 tensorflow彻底败给了pytorch
外国人使唤不动中国机器狗,直到旁边标准普通话响起……
介绍首个拥有真实肌肉的合成AI人类(假人即将问世)
可以改变一切的模型:Alpaca重大突破 (ft. Apple's LLM, BritGPT, Ernie and AlexaTM)
GPT-o2推理超神,GPT-o1为何被 “冷落”?大模型训练
机器学习大战片哥片姐
为什么大学计算机全是深度学习?
【中英字幕】ChatGPT前世之GPT3 & Beyond
逻辑回归,清晰明了~
LLM推理加速新范式!推测解码(Speculative Decoding)最新综述
从选题到投稿,一篇顶会论文是如何产出的,顶会审稿人详解科研论文写作全流程!
OpenRLHF:大规模分布式RLHF训练系统介绍
语言学之父乔姆斯基谈ChatGPT说是高科技剽窃,对语言学价值不大
英伟达黄仁勋再放大招,三大工具颠覆机器人的训练和开发,物理人工智能时代已到来!
从此,人工智能对你来说不再是一个彻底的黑箱。
深度学习环境配置一套搞定:anaconda+pytorch+pycharm+cuda全详解,带你从0配置环境到跑通代码!
国外小哥哥动画拆分讲解Transformer
【官方双语】如何实现ChatGPT同款的Transformer编程?一步一步带你用PyTorch实现!
又一篇Nature!可解释GNN今年持续发力,创新思路有时候就这么简单!
如何用OrangePi 5Pro构建一个强大的迷你电脑?
FacTool: 生成人工智能中的事实检测 - 用于多任务和多领域场景的工具增强框架
小波变换+KAN!撬动A会的王炸思路,创新点拉满!
EMNLP2024分享会之模型对齐主题
【中英字幕】CS224N Winter2021 | Lecture 1 - Intro & Word Vectors
2024.11.24组会-生成模型专题汇报