V
主页
【官方双语】直观解释Transformer中的注意力机制 | 【深度学习第6章】
发布人
“塔”是什么?“Harry”是谁?怎么想象“一个毛茸茸的蓝色生物漫步于葱郁的森林”?怎样用12288个数字表示出一个细微复杂具体的含义? 大语言模型中的注意力机制并没有那么神秘。本视频重点介绍什么是多头/自/交叉注意力。 0:00 - 前情提要:词嵌入 1:39 - 注意力是什么? Mole是什么?Tower又是什么? 4:29 - 注意力模式:“一个毛茸茸的蓝色生物漫步于葱郁的森林”,名词与形容词,查询与键 11:08 - 掩码:看前不看后 12:42 - 上下文窗口大小 13:10 - 值矩阵:“蓝色”如何修饰“生物”? 15:44 - 参数有多少 18:21 - 交叉注意力 19:19 - 多头 22:16 - 输出矩阵 23:19 - 加深网络 24:54 - 结语 YouTube: eMlx5fFNoYc ---- 其他资源: Andrej Karpathy,从零开始手搓 GPT:YouTube: kCc8FmEb1nY vcubingx 新开的系列视频:从底层开始理解语言模型的概念:YouTube: 1il-s4mgNdI 想真正弄清楚Transformer内部的大网络在做什么,推荐Anthropic的网页博文 transformer-circuits.pub/2021/framework/index.html 我就是读了他的一篇文章后开始想,输出矩阵乘以值矩阵,其实就是嵌入空间到自身的一个低秩映射。这样想之后,至少我的概念变得更清晰了。 机器学习编程、GPT相关的教程、在线编程练习、解答:www.gptandchill.ai/codingproblems Brit Cruise @ArtOfTheProblem,语言模型的历史:YouTube OFS90-FX6pg 关于嵌入空间中方向含义的论文:arxiv: 1301.3781
打开封面
下载高清视频
观看高清视频
视频下载器
微分流形讨论班堂堂连载!绝赞可爱美少女青雀出镜!
【官方双语】GPT是什么?直观解释Transformer | 深度学习第5章
64 注意力机制【动手学深度学习v2】
【官方双语】直观解释大语言模型如何储存事实 | 【深度学习第7章】
【熟肉】线性代数的本质 - 03 - 矩阵与线性变换
Attention机制(大白话系列)
【熟肉】线性代数的本质 - 01 - 向量究竟是什么?
四元数的可视化
【官方双语】数学天赋是什么样的?它从何而来?(丹迪林双球)
【官方双语】那么……什么是卷积?
【谜之舒适】12分钟的傅立叶级数动画
122集付费!CNN、RNN、GAN、GNN、DQN、Transformer、LSTM等八大深度学习神经网络一口气全部学完!
麻省理工学院 - MIT - 线性代数(我愿称之为线性代数教程天花板)
注意力机制的本质|Self-Attention|Transformer|QKV矩阵
【官方双语】哔哩哔哩百万粉丝问答
【熟肉】线性代数的本质 - 10 - 特征向量与特征值
【官方双语】深度学习之神经网络的结构 Part 1 ver 2.0
Transformer论文逐段精读【论文精读】
【官方双语】为什么素数会形成这些螺旋?
【熟肉】线性代数的本质 - 02 - 线性组合、张成的空间与基
秒懂GPT✨是什么|动画讲解「Transformer」
全网最透彻的注意力机制的通俗原理与本质【推荐】
【研1基本功 (真的很简单)注意力机制】手写多头注意力机制
通俗易懂理解自注意力机制(Self-Attention)
【官方双语】微积分的本质 - 02 - 导数的悖论
【官方双语】如何优雅地解答最难数学竞赛的压轴题?
何恺明MIT第一课-卷积神经网络
矩阵的迹的真正含义
爱因斯坦的广义相对论公式所推测的宇宙有多诡异?
一个大一废物用一下午完成了他第一个机器学习任务后的喜悦!!!(虽然有现成的包和全程看着教程搞的啊哈哈哈哈哈哈shit,那又怎样!)
筷子腿速成法 !
【官方双语】形象展示高维空间的技巧
333分钟,一口气看完,深度解读现代物理学几乎所有理论!
图解,卷积神经网络(CNN可视化)
3Blue1Brown深度学习课程最火一课:动画揭秘LLM如何存储和处理信息
Transformer为什么会比CNN好
【官方双语】微积分的本质 - 01 -
超强动画,一步一步深入浅出解释Transformer原理!
【官方双语】卷积的两种可视化|概率论中的X+Y既美妙又复杂
GPT,GPT-2,GPT-3 论文精读【论文精读】