V
主页
京东 11.11 红包
从零开始用PyTorch编写一个多模态(视觉)语言模型,详细讲解全过程
发布人
Umar Jamil https://www.youtube.com/watch?v=vAmKB7iPkWw 这个视频详细介绍了一种叫做Polygamma的视觉语言模型,它能理解图像并根据提示生成文本回应。视频解释了这个模型是如何将视觉编码器和变换器语言模型结合在一起的。 根据视频,视觉编码器利用对比学习生成与相应文本嵌入对齐的图像嵌入。训练过程中,模型会尽量最大化匹配的图像-文本对的点积,同时最小化不匹配对的点积。这是通过将图像及其相关的文本描述编码成嵌入,并使用交叉熵损失函数进行训练来实现的。视频还讨论了在这个过程中softmax的挑战,尤其是它在处理大指数时的数值不稳定性和计算成本。视频提出了一种使用sigmoid损失的替代方法,参考了SigLIP论文,认为这是一个更高效且可并行化的解决方案。视频强调了对比视觉编码器在生成与文本嵌入相当的有效图像表示中的重要性。 接下来,视频解释了视觉变换器的工作原理,它将图像分成小块,通过卷积提取特征,并将这些小块展平为一个序列。为了保留空间信息,加入了位置编码。与语言模型不同,视觉变换器允许每个小块关注所有其他小块。视频还提到这些编码器的训练过程,使用了大量从网络抓取的图像数据和描述。 视频描述了视觉变换器的输出是多个嵌入,每个图像小块对应一个嵌入,通过注意力机制提供上下文信息。视频建议手动编码变换器结构,以便更深入地理解。它还解释了如何将位置编码添加到小块嵌入中,并讨论了归一化技术。视频强调了协变量偏移的问题,并解释了层归一化相较于批归一化提供了更稳定的解决方案。每个编码器层使用层归一化,接着是自注意力和多层感知机(MLP)。MLP增加了非线性,增强了模型的学习能力。 视频深入探讨了MLP的架构,由两个线性层和一个GELU激活函数组成,解释了从ReLU演变到其他激活函数如Leaky ReLU和SwiGLU的过程。视频强调了变换器的并行处理能力及其在生成上下文嵌入方面的高效性,比较了视觉和语言模型使用的不同注意力机制。 根据视频,多头注意力机制允许并行计算,每个头关注于令牌嵌入的不同方面。视频描述了为并行处理而转置维度的过程,以及使用注意力掩码来防止某些令牌相互影响。视频还详细说明了如何将注意力分数转换为概率,使用softmax,以及加权值的总和如何贡献于输出嵌入。 视频进一步解释了不同注意力头输出的组合,以及连续内存分配在高效处理中的重要性。视频还讨论了图像和文本数据的整合、视觉编码器的作用、文本的分词,以及为了匹配嵌入大小而需要的线性投影。最后,视频概述了编码“PolyGamma处理器”类的计划,以及为图像整合添加特殊令牌的需求。
打开封面
下载高清视频
观看高清视频
视频下载器
数学视角下的Transformer SDSCon 2024 - 菲利普·里戈莱特
《微积分可视化》 - 丹尼斯·F·戴维斯著
微分方程:变化的语言
我怎么用Manim给3Blue1Brown做动画,和Ben Sparks一起演示
大型语言模型是怎么存储事实的?第七章,深度学习。
【[1小时讲座] 大型语言模型简介】【中字】
音乐中的群论:1.介绍
旋量的奥秘
这就是我为什么喜欢20世纪初的音乐…
音乐中的群论 4. 循环群与调性关系
从零开始搭建一个解析器。讲座 [118] 词法分析器 解析器
【Topos Institute】什么是范畴论?【中字】
如何用Golang写一个Pratt解析器:自定义语言解析器的制作方法
我们一旦不再理解AI的时候 [AlexNet]
离散数学中的关系特性(自反性、对称性、传递性和等价性)
掌握航天飞行的奥秘
有限状态机再探
编写有限状态机 - 再来看看
CPU与GPU的较量:GPU编程第一集
时空:物理学最大的难题
一个聪明的1960年代内存技巧如何改变了计算机技术
获得2024年诺贝尔奖的生成模型
【AI/ML+物理学 第四部分:设计损失函数 [物理信息机器学习】【中字】
RISC-V 向量处理的魔力
【管弦乐课程:马勒,第一部分】【中字】
时间、结构、音色 让-吕克·埃尔维,作曲家
音乐理论会扼杀创造力吗?
数学归纳法入门
电磁学作为一种规范理论
开普勒定律背后的难解方程
离散数学中的重复组合
有限状态机理论入门
音乐中的群论:2. 阿贝尔公理和音乐音程
【物理信息机器学习:科学与工程中人工智能和机器学习的高层概述】【中字】
确定性有限状态机 - 计算理论
通过状态图来了解正则表达式(RegEx)
音乐中的群论 5. 排列群
拓扑量子计算的激进地图
【香农-奈奎斯特采样定理】【中字】
这些圈是怎么做音乐的?