V
主页
[FAI] CMU 黎善达 | 更快的大模型推理 & AIMO竞赛第二名方法分享
发布人
讲座标题(中文):大模型推理的标度率:兼谈首届AIMO的亚军解法 (更快的大模型推理 & AIMO竞赛第二名方法分享) 讲座标题(英文):Inference Scaling Law of Large Language Models and Second-Prize Winning Solution of AIMO 讲座摘要(中文): 大语言模型的标度率(Scaling Law)研究了语言模型的训练,刻画了在给定算力条件下最优的模型参数量和训练数据大小。在现代大语言模型的应用中,更多的算力消耗实际上在于推理(inference)。我们的最新工作提出了推理标度率(Inference Scaling Law),研究在给定算力条件下最优的推理模型参数量(如7B、34B等)和推理策略(如采样投票、树搜索等)。我们针对数学推理(mathematical reasoning)任务进行了系统性实验,结果表明,在不同的算力条件下,最优的推理模型参数量是不同的。特别地,在资源有限的情况下,部署配备更复杂推理算法的较小模型优于使用简单策略的大模型。 基于以上的发现,我们参与了首届人工智能数学竞赛(AIMO)。针对比赛中计算资源受限的要求,我们采用了7B的较小模型和加权多数表决(weighted majority voting)方法进行答题。我们最终在1161个参赛队伍中取得了第二的成绩。值得一提的是,我们仅使用1000美元收集了有限的训练数据,而第一名的队伍的花销据估计超过了100000美元。本次报告我将首先介绍我们在推理标度率方面的工作,其次分享我们在人工智能数学竞赛当中的解法。 讲者信息:黎善达是卡耐基梅隆大学机器学习系的博士生,导师为Yiming Yang教授。他通过理论与实证研究理解机器学习模型的规律与局限,为更有效地运用机器学习方法提供洞察。同时,他研究深度学习方法——特别是语言模型——在数学推理、代码生成、微分方程求解等领域的应用。他的个人主页是https://lithiumda.github.io/。
打开封面
下载高清视频
观看高清视频
视频下载器
[FAI] 清华 滕佳烨 | 现代机器学习视角下的不确定性度量 | ICLR 23
[FAI] 北大 张博航 | 基于子图的图神经网络表达能力探究 ICML 23'
[FAI] CMU 翟润天 | 表征学习和大模型的泛化
[FAI] 清华 游凯超 | 理解、学习与使用PyTorch编译器(torch.compile)
这才是本研博最该看的深度学习入门教程——第7课:神经网络的可解释性
10年后,依然没有人能够击败他的内容!
[FAI] CMU 刘冰彬 | 顺序推理问题的"捷径"解法 ICLR 23' oral, NeurIPS 23' spotlight
[FAI*] 清华大学 李建 | 深度学习中梯度方法的泛化与隐式偏差 (special talk)
[FAI] MIT 刘子鸣 | 智能从饥饿中诞生
[FAI] 北大 金及凯 | 无穷维与有限维区别多大?算子学习的最优算法
[FAI] NeurIPS23' oral 北大 张博航 | 思维链如何解锁大模型的隐藏能力
[FAI] DeepMind 石佳欣 | 长序列建模?基于小波理论的神经网络框架
[FAI*] TTIC 李志远 | 平坦正则化对泛化的帮助 (special talk)
[FAI] Princeton 吕凯风 | 浅谈神经网络在算法推理上的局限性
[FAI] 北大 张博航 | 图神经网络表达能力的评估准则
[FAI] CMU 李禹辰 | 现代语言模型的理论理解
[FAI] 香港大学 邹荻凡 | 基于扩散蒙特卡洛方法的快速采样算法
[FAI] 北大 罗胜杰 | 高效等变网络设计 ICLR 24'
AI已经这么可了 以后还有演员什么事
整整200集,比刷剧还爽!深度学习必看圣经!李沐大神《动手学深度学习》最新版全套视频教程分享(人工智能/深度学习/计算机视觉)
[FAI] 中科大 王博涵 | 动量可以加速SGD吗?
[FAI] Princeton 俞鼎力 | 张量程序VI:无限深度神经网络中的特征学习
[FAI] TTIC 王天浩 | Transformer上下文学习的训练过程分析
导师放养不教,那我来教!20分钟一步步带着你实操从零复现一篇机器学习深度学习论文!-神经网络/pytorch
[FAI] UMich马鉴昊 | 均值估计还能这么玩?稀疏鲁棒均值估计
[转载]基于FPGA的YOLO算法从入门到精通
[FAI] 普林斯顿 蔡天乐 | 让大语言模型自己创造工具
【全198集】CV入门到起飞!一口气学完Python、OpenCV、深度学习基础、Pytorch、卷积神经网络、物体检测、图像分割、等八大计算机视觉必备基础!
[FAI] UMich 胡威 | 神经网络表示中的隐藏结构
【上海交大】医学图像处理技术及其临床应用!专业教授从零讲解!人工智能+医疗顶级应用课程!赶紧收藏起来!-计算机视觉/人工智能/医疗/图像处理
【数学杂谈】最新AI模型能力直逼数学博士???
【劝退】自学StableDiffusion能救一个是一个!这里面的水可深了!人工智能大佬专为零基础研制的StableDiffusion教学教程,太牛了!AI绘图
OpenAI最新ChatGPT大模型o1回答十年脑血栓问题
OpenAI o1 背后团队的庆功视频,解释了什么是推理,以及分享了研究过程中的“啊哈”时刻
【AI知识分享】一致性模型基本原理解析,100分钟硬核干货分享,这100分钟你绝对花的值!
清华北大的教授们会不会受到本科大神们在智商、能力、学识上的碾压?
研一在读,代码完全不会,如何入门深度学习?
【研究生必看】MATLAB机器学习与深度学习及其实现,这是我见过最强大的MATLAB课程!
为什么很多县委书记不想去当区委书记?
草履虫都能学会!这可能是B站最全的(Python+机器学习+深度学习)系列课程了,入门巨简单学不会你打我!机器学习/深度学习/人工智能/python学习