你的模型真的擅长数学吗？MathCheck：大模型数学推理能力的新评估范式

发布人

你的模型真的擅长数学吗？MathCheck：大模型数学推理能力的新评估范式

内容大纲
1.背景-大模型数学推理能力研究现状
2.我们为什么需要更好的评估范式？
3.MathCheck评估框架设计
4.数据构建方法与数据集介绍
5.大模型在MathCheck上的性能表现
6. 数学推理中的行为分析与发现
7. 总结与展望
8. QA

个人简介
周梓浩，目前是利物浦大学和西交利物浦大学的二年级博士生, 曾在清华大学KEG实验室进行访问实习。主要研究方向为评估和提升大语言模型的数学推理能力，在ACL，AAAI，ICASSP等国际会议发表论文多篇。他的近期研究兴趣主要集中在理解和提升大语言模型的数学推理一致性。个人主页: https://zhouzihao501.github.io/

主持人
金明宇 罗格斯大学博士生

打开封面下载高清视频观看高清视频视频下载器

你的模型真的擅长数学吗？MathCheck：大模型数学推理能力的新评估范式

LLM推理加速新范式！推测解码（Speculative Decoding）最新综述

大模型事实性综述

EMNLP2024分享会之NER、模型微调

FacTool: 生成人工智能中的事实检测 - 用于多任务和多领域场景的工具增强框架

Deita: 用高质量数据在微调中“四两拨千斤”

评估中文大模型中的幻觉

大模型时代下非自回归模型的多层次能力提升：媲美自回归模型的探索之路

生成式搜索引擎能否取代检索技术？

EMNLP2024分享会之模型安全主题

蛋白质交流的艺术：ProLLM用'思维链'重新定义蛋白质相互作用预测！

脆弱的不确定性：大模型的可信度如何被操控

RNN卷土重来：基于门控记忆槽的线性注意力机制

大语言模型多选题评估的偏见与鲁棒性

2024最新清华大学内部Agent教学课程，这绝对是B站讲的最好的教程，手把手带你搭建一套属于你的智能体！【原理讲解+代码解析】

从零开始训练大模型

知识斗地主：解析RAG大模型中复杂的知识冲突

【NICE一期】张子殷：代码大模型综述

【NICE一期】周厚全：大模型会句法吗？

LLMBar：评价用于评估指令遵循的大语言模型

大语言模型在text-based game上的表现及分析

全栈大模型微调框架LLaMA Factory：从预训练到RLHF的高效实现

EMNLP2024分享会之多模态主题

EMNLP2024分享会之模型/推理加速主题

EMNLP2024分享会之模型编辑主题

【NICE二期】陈适琪：评估大语言模型的事实性

EMNLP2024分享会之可解释性、资源与评估

MatchTime | 当LLM开始做足球解说：关于多模态模型在体育领域的应用

【2024最新】从入门到提示词工程师：全网最通俗易懂Prompt-Learning提示词学习教程！学不会我退出IT圈！

30分钟教会你使用Llama Factory微调一个专属自己的中文llama3

OpenRLHF：大规模分布式RLHF训练系统介绍

MIT《TinyML和高效深度学习计算L18-Diffusion Model|EfficientML.ai 24Fall MIT 6.5940》deepseek

LLMLingua: 压缩prompt构造LLMs的语言

年度神书！用GPT4和ChatGPT开发应用程序，附电子版和源码

语言模型如何确保无害性？通过推理过程中的隐状态解析越狱和安全对齐

【NICE二期】王鸿儒：武侠小说视角：大模型对话系统的内功和外功

微软+罗格斯大学提出：使用交互式推测解码赋能Agent，将智能体规划速度提高一倍！

Transformer的无限之路：位置编码视角下的长度外推

Agent+RAG大模型落地应用实践经验分享（超级干货）

从零开始学习Cuda-06-加法算子优化

【全374集】2024最新清华内部版！终于把AI大模型（LLM）讲清楚了！全程干货讲解，通俗易懂，拿走不谢！