[FAI] CMU 黎善达 | 更快的大模型推理＆ AIMO竞赛第二名方法分享

发布人

讲座标题（中文）：大模型推理的标度率：兼谈首届AIMO的亚军解法 （更快的大模型推理 ＆ AIMO竞赛第二名方法分享）
讲座标题（英文）：Inference Scaling Law of Large Language Models and Second-Prize Winning Solution of AIMO
讲座摘要（中文）：
大语言模型的标度率（Scaling Law）研究了语言模型的训练，刻画了在给定算力条件下最优的模型参数量和训练数据大小。在现代大语言模型的应用中，更多的算力消耗实际上在于推理（inference）。我们的最新工作提出了推理标度率（Inference Scaling Law），研究在给定算力条件下最优的推理模型参数量（如7B、34B等）和推理策略（如采样投票、树搜索等）。我们针对数学推理（mathematical reasoning）任务进行了系统性实验，结果表明，在不同的算力条件下，最优的推理模型参数量是不同的。特别地，在资源有限的情况下，部署配备更复杂推理算法的较小模型优于使用简单策略的大模型。
基于以上的发现，我们参与了首届人工智能数学竞赛（AIMO）。针对比赛中计算资源受限的要求，我们采用了7B的较小模型和加权多数表决（weighted majority voting）方法进行答题。我们最终在1161个参赛队伍中取得了第二的成绩。值得一提的是，我们仅使用1000美元收集了有限的训练数据，而第一名的队伍的花销据估计超过了100000美元。本次报告我将首先介绍我们在推理标度率方面的工作，其次分享我们在人工智能数学竞赛当中的解法。
讲者信息：黎善达是卡耐基梅隆大学机器学习系的博士生，导师为Yiming Yang教授。他通过理论与实证研究理解机器学习模型的规律与局限，为更有效地运用机器学习方法提供洞察。同时，他研究深度学习方法——特别是语言模型——在数学推理、代码生成、微分方程求解等领域的应用。他的个人主页是https://lithiumda.github.io/。

打开封面下载高清视频观看高清视频视频下载器

[FAI] CMU 黎善达 | 更快的大模型推理 ＆ AIMO竞赛第二名方法分享

[FAI] 清华 滕佳烨 | 现代机器学习视角下的不确定性度量 | ICLR 23

[FAI] 北大 张博航 | 基于子图的图神经网络表达能力探究 ICML 23'

[FAI] CMU 翟润天 | 表征学习和大模型的泛化

[FAI] 清华 游凯超 | 理解、学习与使用PyTorch编译器（torch.compile）

这才是本研博最该看的深度学习入门教程——第7课：神经网络的可解释性

10年后，依然没有人能够击败他的内容！

[FAI] CMU 刘冰彬 | 顺序推理问题的"捷径"解法 ICLR 23' oral, NeurIPS 23' spotlight

[FAI*] 清华大学 李建 | 深度学习中梯度方法的泛化与隐式偏差 (special talk)

[FAI] MIT 刘子鸣 | 智能从饥饿中诞生

[FAI] 北大 金及凯 | 无穷维与有限维区别多大？算子学习的最优算法

[FAI] NeurIPS23' oral 北大 张博航 | 思维链如何解锁大模型的隐藏能力

[FAI] DeepMind 石佳欣 | 长序列建模？基于小波理论的神经网络框架

[FAI*] TTIC 李志远 | 平坦正则化对泛化的帮助 (special talk)

[FAI] Princeton 吕凯风 | 浅谈神经网络在算法推理上的局限性

[FAI] 北大 张博航 | 图神经网络表达能力的评估准则

[FAI] CMU 李禹辰 | 现代语言模型的理论理解

[FAI] 香港大学 邹荻凡 | 基于扩散蒙特卡洛方法的快速采样算法

[FAI] 北大 罗胜杰 | 高效等变网络设计 ICLR 24'

AI已经这么可了 以后还有演员什么事

整整200集，比刷剧还爽！深度学习必看圣经！李沐大神《动手学深度学习》最新版全套视频教程分享（人工智能/深度学习/计算机视觉）

[FAI] 中科大 王博涵 | 动量可以加速SGD吗？

[FAI] Princeton 俞鼎力 | 张量程序VI：无限深度神经网络中的特征学习

[FAI] TTIC 王天浩 | Transformer上下文学习的训练过程分析

导师放养不教，那我来教！20分钟一步步带着你实操从零复现一篇机器学习深度学习论文！-神经网络/pytorch

[FAI] UMich马鉴昊 | 均值估计还能这么玩？稀疏鲁棒均值估计

[转载]基于FPGA的YOLO算法从入门到精通

[FAI] 普林斯顿 蔡天乐 | 让大语言模型自己创造工具

【全198集】CV入门到起飞！一口气学完Python、OpenCV、深度学习基础、Pytorch、卷积神经网络、物体检测、图像分割、等八大计算机视觉必备基础！

[FAI] UMich 胡威 | 神经网络表示中的隐藏结构

【上海交大】医学图像处理技术及其临床应用！专业教授从零讲解！人工智能+医疗顶级应用课程!赶紧收藏起来！-计算机视觉/人工智能/医疗/图像处理

【数学杂谈】最新AI模型能力直逼数学博士？？？

【劝退】自学StableDiffusion能救一个是一个！这里面的水可深了！人工智能大佬专为零基础研制的StableDiffusion教学教程，太牛了！AI绘图

OpenAI最新ChatGPT大模型o1回答十年脑血栓问题

OpenAI o1 背后团队的庆功视频，解释了什么是推理，以及分享了研究过程中的“啊哈”时刻

【AI知识分享】一致性模型基本原理解析，100分钟硬核干货分享，这100分钟你绝对花的值！

清华北大的教授们会不会受到本科大神们在智商、能力、学识上的碾压？

研一在读，代码完全不会，如何入门深度学习？

【研究生必看】MATLAB机器学习与深度学习及其实现，这是我见过最强大的MATLAB课程！

为什么很多县委书记不想去当区委书记？

草履虫都能学会！这可能是B站最全的（Python＋机器学习＋深度学习）系列课程了，入门巨简单学不会你打我！机器学习/深度学习/人工智能/python学习

[FAI] CMU 黎善达 | 更快的大模型推理＆ AIMO竞赛第二名方法分享

[FAI] 清华滕佳烨 | 现代机器学习视角下的不确定性度量 | ICLR 23

[FAI] 北大张博航 | 基于子图的图神经网络表达能力探究 ICML 23'

[FAI] 清华游凯超 | 理解、学习与使用PyTorch编译器（torch.compile）

[FAI*] 清华大学李建 | 深度学习中梯度方法的泛化与隐式偏差 (special talk)

[FAI] 北大金及凯 | 无穷维与有限维区别多大？算子学习的最优算法

[FAI] NeurIPS23' oral 北大张博航 | 思维链如何解锁大模型的隐藏能力

[FAI] 北大张博航 | 图神经网络表达能力的评估准则

[FAI] 香港大学邹荻凡 | 基于扩散蒙特卡洛方法的快速采样算法

[FAI] 北大罗胜杰 | 高效等变网络设计 ICLR 24'

AI已经这么可了以后还有演员什么事

[FAI] 中科大王博涵 | 动量可以加速SGD吗？

[FAI] 普林斯顿蔡天乐 | 让大语言模型自己创造工具