【官方双语】直观解释Transformer中的注意力机制 | 【深度学习第6章】

发布人

“塔”是什么？“Harry”是谁？怎么想象“一个毛茸茸的蓝色生物漫步于葱郁的森林”？怎样用12288个数字表示出一个细微复杂具体的含义？

大语言模型中的注意力机制并没有那么神秘。本视频重点介绍什么是多头/自/交叉注意力。

0:00 - 前情提要：词嵌入
1:39 - 注意力是什么? Mole是什么？Tower又是什么?
4:29 - 注意力模式：“一个毛茸茸的蓝色生物漫步于葱郁的森林”，名词与形容词，查询与键
11:08 - 掩码：看前不看后
12:42 - 上下文窗口大小
13:10 - 值矩阵：“蓝色”如何修饰“生物”？
15:44 - 参数有多少
18:21 - 交叉注意力
19:19 - 多头
22:16 - 输出矩阵
23:19 - 加深网络
24:54 - 结语

YouTube: eMlx5fFNoYc
----
其他资源：
Andrej Karpathy，从零开始手搓 GPT：YouTube: kCc8FmEb1nY
vcubingx 新开的系列视频：从底层开始理解语言模型的概念：YouTube: 1il-s4mgNdI

想真正弄清楚Transformer内部的大网络在做什么，推荐Anthropic的网页博文
transformer-circuits.pub/2021/framework/index.html
我就是读了他的一篇文章后开始想，输出矩阵乘以值矩阵，其实就是嵌入空间到自身的一个低秩映射。这样想之后，至少我的概念变得更清晰了。

机器学习编程、GPT相关的教程、在线编程练习、解答：www.gptandchill.ai/codingproblems

Brit Cruise @ArtOfTheProblem，语言模型的历史：YouTube OFS90-FX6pg

关于嵌入空间中方向含义的论文：arxiv: 1301.3781

打开封面下载高清视频观看高清视频视频下载器

【官方双语】直观解释Transformer中的注意力机制 | 【深度学习第6章】

微分流形讨论班堂堂连载！绝赞可爱美少女青雀出镜！

【官方双语】GPT是什么？直观解释Transformer | 深度学习第5章

64 注意力机制【动手学深度学习v2】

【官方双语】直观解释大语言模型如何储存事实 | 【深度学习第7章】

【熟肉】线性代数的本质 - 03 - 矩阵与线性变换

Attention机制（大白话系列）

【熟肉】线性代数的本质 - 01 - 向量究竟是什么？

四元数的可视化

【官方双语】数学天赋是什么样的？它从何而来？（丹迪林双球）

【官方双语】那么……什么是卷积？

【谜之舒适】12分钟的傅立叶级数动画

122集付费！CNN、RNN、GAN、GNN、DQN、Transformer、LSTM等八大深度学习神经网络一口气全部学完！

麻省理工学院 - MIT - 线性代数（我愿称之为线性代数教程天花板）

注意力机制的本质|Self-Attention|Transformer|QKV矩阵

【官方双语】哔哩哔哩百万粉丝问答

【熟肉】线性代数的本质 - 10 - 特征向量与特征值

【官方双语】深度学习之神经网络的结构 Part 1 ver 2.0

Transformer论文逐段精读【论文精读】

【官方双语】为什么素数会形成这些螺旋？

【熟肉】线性代数的本质 - 02 - 线性组合、张成的空间与基

秒懂GPT✨是什么｜动画讲解「Transformer」

全网最透彻的注意力机制的通俗原理与本质【推荐】

【研1基本功 （真的很简单）注意力机制】手写多头注意力机制

通俗易懂理解自注意力机制（Self-Attention）

【官方双语】微积分的本质 - 02 - 导数的悖论

【官方双语】如何优雅地解答最难数学竞赛的压轴题？

何恺明MIT第一课-卷积神经网络

矩阵的迹的真正含义

爱因斯坦的广义相对论公式所推测的宇宙有多诡异？

一个大一废物用一下午完成了他第一个机器学习任务后的喜悦！！！（虽然有现成的包和全程看着教程搞的啊哈哈哈哈哈哈shit，那又怎样！）

筷子腿速成法 ！

【官方双语】形象展示高维空间的技巧

333分钟，一口气看完，深度解读现代物理学几乎所有理论！

图解，卷积神经网络（CNN可视化）

3Blue1Brown深度学习课程最火一课：动画揭秘LLM如何存储和处理信息

Transformer为什么会比CNN好

【官方双语】微积分的本质 - 01 -

超强动画，一步一步深入浅出解释Transformer原理！

【官方双语】卷积的两种可视化|概率论中的X+Y既美妙又复杂

GPT，GPT-2，GPT-3 论文精读【论文精读】

【研1基本功（真的很简单）注意力机制】手写多头注意力机制

筷子腿速成法！