V
主页
Transformer模型能否进行隐式的推理?一个关于Grokking和泛化的深入探索
发布人
主题 Transformer模型能否进行隐式的推理?一个关于Grokking和泛化的深入探索 论文:Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization 地址:https://arxiv.org/abs/2405.15071 状态:在投 嘉宾 汪博石,是俄亥俄州立大学的三年级博士生,在Huan Sun教授的指导下进行研究。他的主要研究方向为评估、理解和提升语言模型的知识和推理能力。他曾经在自然语言处理和人工智能领域的顶级会议上发表多篇论文,其中在ACL-23发表的理解大模型的思维链能力(Chain-of-Thought)的工作曾获得最佳论文荣誉提名奖。他的近期研究兴趣主要集中在Transformer模型的隐式推理能力和其相关的影响。 主持人 华文越 罗格斯大学博士生 内容 背景 - Transformer语言模型隐式推理能力的欠缺 我们为什么要关注隐式推理和参数化知识? 研究方法与评估设计 Grokking现象与其背后原理的分析 模型的内部电路(circuits)与系统性泛化 参数知识对于复杂推理的重要性与潜力 总结与展望 QA 研究背景 现今的大语言模型虽然能力广而出众,但许多工作发现它们依旧很难基于参数知识做隐式推理。这项缺陷会导致他们内部对知识和规则的表示冗余而难以更新,同时限制它们的泛化。在这篇工作中,我们系统性地研究Transformer是否可以获得隐式推理的能力。我们的一系列实验和对于模型内部的分析揭示了Grokking对于获得隐式推理能力的重要性,其背后的过程和原因,以及Transformer模型对于不同任务的系统性泛化能力的差异。最后,为了展示参数知识表示在复杂推理中的功能和潜力,我们设计了一个具有巨大搜索空间的推理任务,同时发现 如果基于非参数知识表示,无论提示风格或检索增强,即使目前最强的语言模型(例如GPT-4-Turbo和Gemini-1.5-Pro)都无法取得好的效果, 一个Grokking完全的Transformer可以实现接近完美的推理准确性。
打开封面
下载高清视频
观看高清视频
视频下载器
【全374集】2024最新清华内部版!终于把AI大模型(LLM)讲清楚了!全程干货讲解,通俗易懂,拿走不谢!
迈向可信的AI:探索安全、负责的大语言模型
EMNLP2024分享会之多模态主题
Transformer的无限之路:位置编码视角下的长度外推
田渊栋博士:传统符号推理和大模型推理的融合之路
Deita: 用高质量数据在微调中“四两拨千斤”
EMNLP2024分享会之模型对齐主题
EMNLP2024分享会之Agent主题
生成式搜索引擎能否取代检索技术?
EMNLP2024分享会之模型安全主题
【全100集】人工智能课程(理论+实战) 大模型学习路线及框架详解 pytorch transformer详解 大模型rag ChatGLM llama微调
脆弱的不确定性:大模型的可信度如何被操控
评估中文大模型中的幻觉
30分钟学会微调Qwen1.8B大模型,轻松实现天气预报功能
LLaMA-MoE:基于参数复用的混合专家模型构建方法探索
蛋白质交流的艺术:ProLLM用'思维链'重新定义蛋白质相互作用预测!
EMNLP2024分享会之NER、模型微调
关于LLaMA & Alpaca 微调、代码生成、RAM配置等,更多你的疑问都在这里
从0开始训练1.4b中文大模型的经验分享
大语言模型编辑中的崩溃研究
大语言模型多选题评估的偏见与鲁棒性
冒死上传!目前B站最完整的大模型微调教程,适应于所有大模型微调实战!微调|量化|部署|应用
【全878集】零基础自学AI大模型能救一个是一个,新手小白少走99%的弯路(LLM+RAG系统+GPT-4o+OpenAI)光刷完就赢麻了,通俗易懂|学完即
大模型事实性综述
EMNLP2024分享会之模型编辑主题
EMNLP2024分享会之可解释性、资源与评估
大语言模型的时间魔法:从共时推理到框架优化
【NICE一期】周厚全:大模型会句法吗?
知识斗地主:解析RAG大模型中复杂的知识冲突
“显微镜”下的RAG:通过 RAGChecker 进行细粒度诊断评估
B站讲的最好的AI大模型实战(2024最新版)LLM+RAG系统+GPT-4o+OpenAI,全部都讲明白了!!
【自学AI Agent】绝对是我在B站见过最全的Agent智能体行业落地应用实战教程!MOE模型、LORA、RAG
如何训练你自己的o1模型?TPO??
四种方法免费使用ChatGPT-4o 和Claude 3.5 Sonnet的方法,本人亲测有效 | 黄思平
多头注意力(Multi-Head Attention)
大语言模型的知识编辑:问题,方法与挑战
就冲这个更新,我已经想象出了一个gpt宇宙了
【微调实战】30分钟学会微调大模型,通义千问1.8B大模型微调从0到1,实现天气预报功能,进行结构化信息提取
这可能是目前为止我在B站看到过最系统的【时间序列预测模型】教程!迪哥一次性讲全了!_LSTM/Informer/ARIMA/Pandas/Transformer
【国内白嫖】11月17日最新ChatGPT4.0