[FAI] TTIC 王天浩 | Transformer上下文学习的训练过程分析

发布人

讲座标题（中文）：Transformer上下文学习的训练过程分析
讲座标题（英文）：Tractable training dynamics of transformers for in-context learning
讲座摘要：The transformer architecture is the backbone of today&#39;s foundation models across a wide range of applications. However, it still remains a mystery how these models are trained to achieve such remarkable capabilities, among which is the ability to learn from in-context demonstrations without any weight updates. To shed light on this, we study the training dynamics of transformers in two canonical in-context learning (ICL) settings: 1) linear regression and 2) n-gram Markov chain. For in-context linear regression, we show that the ICL capability of a one-layer transformer emerges along the training trajectory of gradient flow, and we further prove its convergence as well as the optimality of the trained model. Furthermore, for learning an n-gram Markov chain in-context, we rigorously prove that a two-layer transformer can be trained to implement a generalized version of the induction head mechanism. Our analyses reveal the inner workings of different components of transformers, and provide insights for understanding transformers for ICL and beyond.
讲者信息：Tianhao Wang (王天浩) is a Research Assistant Professor at Toyota Technological Institute at Chicago. He received his PhD from the Department of Statistics and Data Science at Yale University in 2024. Prior to Yale, he received his BS from University of Science and Technology of China in 2018. His research interests are mainly in theoretical foundations of statistical learning, especially high-dimensional statistics and deep learning. In summer 2025, he will join the Halıcıoğlu Data Science Institute at UC San Diego as a tenure-track assistant professor.

打开封面下载高清视频观看高清视频视频下载器

[FAI] TTIC 王天浩 | Transformer上下文学习的训练过程分析

黄仁勋去白宫开会，换下黑色皮衣，谈全新的AI产业革命

COMSOL深度神经网络学习-模型预测-代理模型训练

北京籍前华为首名女黑客瑾瑾 在b站坚持直播编程到凌晨 可直播间却仅1人观看

【精校】AI, 智人之上：赫拉利最新面对面访谈 2024.9.12 【中英字幕】

【精校】《人类简史》赫拉利最新播客访谈: AI，智人之上 | 2024.9.14 【中英字幕】

导师放养不教，那我来教！20分钟一步步带着你实操从零复现一篇机器学习深度学习论文！-神经网络/pytorch

10年后，依然没有人能够击败他的内容！

知网，再见！中科院推出8000万免费数据库，可检索1.7亿资源，测试非常流畅好用！刚测试了下，非常流畅好用！强烈建议所有本硕博学生找AI方向的论文用起来!

[FAI] 清华 游凯超 | 理解、学习与使用PyTorch编译器（torch.compile）

知名投资人彼得·蒂尔：这两年的AI领域，只有英伟达疯狂赚钱，其他的都在赔钱！

人类记忆是否被‘清空过’，AI人工智能认为1913年是人类文明的巅峰

新版chatGPT秒杀最新的leetcode周赛

[FAI] 北大 张博航 | 基于子图的图神经网络表达能力探究 ICML 23'

【比刷剧还爽！】从入门到精通CNN、RNN、GAN、GNN、DQN、Transformer、LSTM等八大深度学习神经网络一口气学完！

对神经网络某一层做了小改进，效果却提升显著，可以发论文吗？ -人工智能/机器学习/深度学习

【Neuro】直播断线，老爹紧急上线安慰女儿

离谱! AI生成已经发展到这种程度了？？？

菜徐村的哥哥竟然在AI里玩吃播！鸡你太香了！

著名数学家、菲尔茨奖获得者陶哲轩对AI的全新解读

这几个传统机器学习算法完全没必要学了！迪哥带你快速入门树模型系列内容，也是唯一值得去学的算法！

研一在读，代码完全不会，如何入门深度学习？

35年首次证明！神经网络登上Nature：神经网络具有人类泛化能力，是人工智能的又一重大突破！

【200集全】CV十天入门到起飞！一口气学完Python、OpenCV、深度学习基础、PyTorch、卷积神经网络、物体检测、图像分割等计算机视觉必备基础与实战

OpenAI首次将o1风险评级定为“中性”，较之前模型更具危险性

星野AI，过↗来↓- daddy-4号

草履虫都能学会！这可能是B站最全的（Python＋机器学习＋深度学习）系列课程了，入门巨简单学不会你打我！机器学习/深度学习/人工智能/python学习

2024年第65届IMO上，陶哲轩演讲表示AI技术其中以大型语言模型（LLMs）为代表也已经有大约 5 年的历史，但直到最近，AI输出才慢慢达到了人类的水平。

为什么大学计算机全是深度学习？

这辈子，你听过导师最有水平的一句话是什么？

【课件+代码】李沐大神《动手学深度学习》2024最新视频教程，比啃书高效！比刷剧还爽！（人工智能丨深度学习丨神经网络）

真的太完整了！一口气从入门到精通学完CNN、RNN、GAN、GNN、DQN、Transformer、LSTM等八大深度学习神经网络，看完学不会up退出IT圈！！

新疆小伙620分辍学，被社会毒打12年后重新考上211

被点醒了！想学好线代一定不能错过的《线性代数可视化手册》，求所有线代不好的把这12页纸翻烂！MIT大神级教授神书

[FAI] 清华 滕佳烨 | 现代机器学习视角下的不确定性度量 | ICLR 23

【Neuro】一家三口怪话合集

[FAI] 北大 张博航 | 图神经网络表达能力的评估准则

【数学杂谈】最新AI模型能力直逼数学博士？？？

【神经网络杀疯了！】登上了nature神坛！迎来人工智能新的里程碑：被证明具有泛化能力，能像人类一样思考！

发明Netron的人真是个天才，能把复杂难懂的代码以图形化的方式展示！

【0零基础MATLAB入门】台湾大学郭彦甫教授！简单易懂，看完就能用！-深度学习/机器学习/算法

北京籍前华为首名女黑客瑾瑾在b站坚持直播编程到凌晨可直播间却仅1人观看

[FAI] 清华游凯超 | 理解、学习与使用PyTorch编译器（torch.compile）

[FAI] 北大张博航 | 基于子图的图神经网络表达能力探究 ICML 23'

[FAI] 清华滕佳烨 | 现代机器学习视角下的不确定性度量 | ICLR 23

[FAI] 北大张博航 | 图神经网络表达能力的评估准则