FrontierMath数学基准测试 最牛大模型正确率不到2% 60多位顶尖数学家出题
发布人