【Proof-Trivial】数学视角下的Transformer【MIT数学系】 - 视频下载 Video Downloader

【Proof-Trivial】数学视角下的Transformer【MIT数学系】

发布人

https://www.youtube.com/watch?v=0WHZESuwVC4
这篇论文来自MIT数学系，作者将Transformer视为一个连续时间的动力系统，模型的层级被视为时间变量。在这个框架下，Self-Attention和Layer Normalization是关键的部分

核心的发现是，随着时间的推移，模型中的元素（或称为粒子）会趋于聚集形成集群。这一集群现象在高维空间中尤为显著，并且与模型的学习能力密切相关。例如，在预测下一个词的任务中，集群现象表明模型可能趋向于预测少数几种可能性，而不是展现多样性......

打开封面下载高清视频观看高清视频视频下载器

【搬运】如今计算机视觉会议的接受标准

Transformer论文逐段精读【论文精读】

李沐-除非你是专家否则不建议搞图神经网络

【Proof-Trivial】高等数理统计(基于测度论) 清华大学

眼神戏法官判你无罪释放你看向唯一怀疑你的警察

【李沐】因为过拟合刷题，我最后只能去MIT和CMU这种学校

何恺明MIT第一课-卷积神经网络

tiktok面试题：手写Transformer

【带读AI经典论文|100篇】世界顶级大佬带你逐句阅读最重要的100篇AI论文

伤害性不大，侮辱性极强

斯坦福大学《凸优化|Stanford EE364A Convex Optimization I Stephen Boyd》中英字幕

【官方双语】GPT是什么？直观解释Transformer | 深度学习第5章

李沐-YOLOv3史上写的最烂的论文-但很work

【Proof-Trivial】机器学习与数据科学中的【理论】与【算法】【北京大学文再文】

从编解码和词嵌入开始，一步一步理解Transformer，注意力机制(Attention)的本质是卷积神经网络(CNN)

注意力机制的本质|Self-Attention|Transformer|QKV矩阵

【官方双语】直观解释注意力机制，Transformer的核心 | 【深度学习第6章】

沉浸式旁听菲尔兹奖得主 James Maynard 开组会

【Proof-Trivial】数学基础自学路线

上海MIT新生见面会！遇到了超级大神么？聊一下麻省理工校友聚会！MIT | 麻省理工 | 北美留学 | 研究生 | 博士

【Proof-Trivial】偏微分方程进阶【北京大学楚健春】

【Proof-Trivial】统计机器学习【理论基础】与【前沿论文】

MIT《泛函分析|MIT 18.102 Introduction to Functional Analysis, Spring 2021》中英字幕（豆包翻译）

19、Transformer模型Encoder原理精讲及其PyTorch逐行实现

博一研究生求偶视频

斯坦福大学《强化学习|Stanford CS234 Reinforcement Learning 2024》deepseek翻译

Candes和陶哲轩的大作【稀疏恢复（Sparse Recovery）】——张颢（清华大学）

【官方双语】Transformer模型最通俗易懂的讲解，零基础也能听懂！

【官方双语】深度学习之神经网络的结构 Part 1 ver 2.0

【Proof-Trivial】泛函分析保姆级入门教程 (Functional Analysis)

一个视频看懂score-based模型的底层原理

【Proof-Trivial】最优传输与平均场博弈 (Optimal transport and Mean field games)【Wuchen Li】

涡旋环碰撞

【Proof-Trivial】哈密顿系统与辛几何

北京大学在读博士李雪曈：基于稀有事件的分布式逻辑回归

ICML 2024 tutorial: 语言模型物理学

奇葩问题把李沐大神整不会了

Transformer从零详细解读(可能是你见过最通俗易懂的讲解)

[凸优化-中文字幕]Boyd斯坦福公开课

【Proof-Trivial】统计热力学北京大学