V
主页
【Proof-Trivial】数学视角下的Transformer【MIT数学系】
发布人
https://www.youtube.com/watch?v=0WHZESuwVC4 这篇论文来自MIT数学系,作者将Transformer视为一个连续时间的动力系统,模型的层级被视为时间变量。在这个框架下,Self-Attention和Layer Normalization是关键的部分 核心的发现是,随着时间的推移,模型中的元素(或称为粒子)会趋于聚集形成集群。这一集群现象在高维空间中尤为显著,并且与模型的学习能力密切相关。例如,在预测下一个词的任务中,集群现象表明模型可能趋向于预测少数几种可能性,而不是展现多样性......
打开封面
下载高清视频
观看高清视频
视频下载器
【搬运】如今计算机视觉会议的接受标准
Transformer论文逐段精读【论文精读】
李沐-除非你是专家否则不建议搞图神经网络
【Proof-Trivial】高等数理统计(基于测度论) 清华大学
眼神戏 法官判你无罪释放你看向唯一怀疑你的警察
【李沐】因为过拟合刷题,我最后只能去MIT和CMU这种学校
何恺明MIT第一课-卷积神经网络
tiktok面试题:手写Transformer
【带读AI经典论文|100篇】世界顶级大佬带你逐句阅读最重要的100篇AI论文
伤害性不大,侮辱性极强
斯坦福大学《凸优化|Stanford EE364A Convex Optimization I Stephen Boyd》中英字幕
【官方双语】GPT是什么?直观解释Transformer | 深度学习第5章
李沐-YOLOv3史上写的最烂的论文-但很work
【Proof-Trivial】机器学习与数据科学中的【理论】与【算法】【北京大学 文再文】
从编解码和词嵌入开始,一步一步理解Transformer,注意力机制(Attention)的本质是卷积神经网络(CNN)
注意力机制的本质|Self-Attention|Transformer|QKV矩阵
【官方双语】直观解释注意力机制,Transformer的核心 | 【深度学习第6章】
沉浸式旁听菲尔兹奖得主 James Maynard 开组会
【Proof-Trivial】数学基础自学路线
上海MIT新生见面会!遇到了超级大神么?聊一下麻省理工校友聚会!MIT | 麻省理工 | 北美留学 | 研究生 | 博士
【Proof-Trivial】偏微分方程进阶【北京大学 楚健春】
【Proof-Trivial】统计机器学习【理论基础】与【前沿论文】
MIT《泛函分析|MIT 18.102 Introduction to Functional Analysis, Spring 2021》中英字幕(豆包翻译)
19、Transformer模型Encoder原理精讲及其PyTorch逐行实现
博一研究生 求偶视频
斯坦福大学《强化学习|Stanford CS234 Reinforcement Learning 2024》deepseek翻译
Candes和陶哲轩的大作 【稀疏恢复(Sparse Recovery)】——张颢(清华大学)
【官方双语】Transformer模型最通俗易懂的讲解,零基础也能听懂!
【官方双语】深度学习之神经网络的结构 Part 1 ver 2.0
【Proof-Trivial】泛函分析保姆级入门教程 (Functional Analysis)
一个视频看懂score-based模型的底层原理
【Proof-Trivial】最优传输与平均场博弈 (Optimal transport and Mean field games)【Wuchen Li】
涡旋环碰撞
【Proof-Trivial】哈密顿系统与辛几何
北京大学在读博士李雪曈:基于稀有事件的分布式逻辑回归
ICML 2024 tutorial: 语言模型物理学
奇葩问题把李沐大神整不会了
Transformer从零详细解读(可能是你见过最通俗易懂的讲解)
[凸优化-中文字幕]Boyd斯坦福公开课
【Proof-Trivial】统计热力学 北京大学