V
主页
【官方双语】直观解释Transformer中的注意力机制 | 【深度学习第6章】
发布人
“塔”是什么?“Harry”是谁?怎么想象“一个毛茸茸的蓝色生物漫步于葱郁的森林”?怎样用12288个数字表示出一个细微复杂具体的含义? 大语言模型中的注意力机制并没有那么神秘。本视频重点介绍什么是多头/自/交叉注意力。 0:00 - 前情提要:词嵌入 1:39 - 注意力是什么? Mole是什么?Tower又是什么? 4:29 - 注意力模式:“一个毛茸茸的蓝色生物漫步于葱郁的森林”,名词与形容词,查询与键 11:08 - 掩码:看前不看后 12:42 - 上下文窗口大小 13:10 - 值矩阵:“蓝色”如何修饰“生物”? 15:44 - 参数有多少 18:21 - 交叉注意力 19:19 - 多头 22:16 - 输出矩阵 23:19 - 加深网络 24:54 - 结语 YouTube: eMlx5fFNoYc ---- 其他资源: Andrej Karpathy,从零开始手搓 GPT:YouTube: kCc8FmEb1nY vcubingx 新开的系列视频:从底层开始理解语言模型的概念:YouTube: 1il-s4mgNdI 想真正弄清楚Transformer内部的大网络在做什么,推荐Anthropic的网页博文 transformer-circuits.pub/2021/framework/index.html 我就是读了他的一篇文章后开始想,输出矩阵乘以值矩阵,其实就是嵌入空间到自身的一个低秩映射。这样想之后,至少我的概念变得更清晰了。 机器学习编程、GPT相关的教程、在线编程练习、解答:www.gptandchill.ai/codingproblems Brit Cruise @ArtOfTheProblem,语言模型的历史:YouTube OFS90-FX6pg 关于嵌入空间中方向含义的论文:arxiv: 1301.3781
打开封面
下载高清视频
观看高清视频
视频下载器
注意力机制的本质|Self-Attention|Transformer|QKV矩阵
【官方双语】GPT是什么?直观解释Transformer | 深度学习第5章
强烈推荐!台大李宏毅自注意力机制和Transformer详解!
Transformer从零详细解读(可能是你见过最通俗易懂的讲解)
什么是transformer?【知多少】
【官方双语】微积分的本质 - 01 -
从编解码和词嵌入开始,一步一步理解Transformer,注意力机制(Attention)的本质是卷积神经网络(CNN)
【官方双语】深度学习之神经网络的结构 Part 1 ver 2.0
PyTorch深度学习快速入门教程(绝对通俗易懂!)【小土堆】
膜拜!浙大教授竟把Transformer讲的如此简单!全套【Transformer基础】课程分享,连草履虫都能学会!再学不会UP下跪!
超强动画演示,一步一步深入浅出解释Transformer原理!这可能是我看到过最通俗易懂的Transformer教程了吧!——(人工智能、大模型、深度学习)
【熟肉】线性代数的本质 - 00 - “线性代数的本质”系列预览
Attention机制(大白话系列)
B站强推!2024公认最通俗易懂的【Transformer】教程,125集付费课程(附资料)神经网络_注意力机制_深度学习_BERT_大模型
散度与旋度:麦克斯韦方程组、流体等所用到的语言
最难数学竞赛中的最难问题 - 3Blue1Brown
怎样用力学方法证明光的折射定律
麻省理工学院 - MIT - 线性代数(我愿称之为线性代数教程天花板)
【官方双语】如何优雅地解答最难数学竞赛的压轴题?
333分钟,一口气看完,深度解读现代物理学几乎所有理论!
【深度学习保姆级教学】草履虫都能看懂!理论到实战、入门到起飞!人工智能基础入门必看!【ML机器学习|DL深度学习|CV计算机视觉|NLP自然语言处理】
64 注意力机制【动手学深度学习v2】
终于有人把chatGPT说清楚了——全网最深入浅出的chatGPT原理科普,包你看懂
【李宏毅】2024年公认最好的【LLM大模型】教程!大模型入门到进阶,一套全解决!2024生成式人工智慧-附带课件代码
一道光学题引发的思考
【官方双语】数学天赋是什么样的?它从何而来?(丹迪林双球)
流体力学告诉你,如何舀到免费汤中更多的菜
Transformer论文逐段精读【论文精读】
(强推)李宏毅2021/2022春机器学习课程
【正经科普】为什么说数学思维就是搞抽象
68 Transformer【动手学深度学习v2】
矩阵的迹的真正含义
【谜之舒适】12分钟的傅立叶级数动画
【官方双语】黎曼ζ函数与解析延拓的可视化
研究人员觉得这里有个bug... (Borwein积分)
[双语字幕]吴恩达深度学习deeplearning.ai
十分钟动画理清底层逻辑,一周时间掌握Transformer!这套课程把Transformer模型的入门到实战讲的太透了!
【官方双语】到底为什么“中心极限”是正态分布啊
【官方双语】巴塞尔问题:著名公式背后的惊人几何学
通俗易懂理解自注意力机制(Self-Attention)