苹果质疑大模型：只会答题不会推理，行业需新评测

豆抖大人2025-12-15 09:31:09

苹果发论文质疑大模型是小镇做题家，不会推理，只会被题回答问题。
团队把火力集中在J38K数学数据集中，该数据集由8500道小学数学题组成，三年前175B参数的GPT3正确率只有35%，而三年后3D参数的微软大模型正确率高达84.9%。但同个模型在这个数据集中反复测试，正确率的波动高达10%。
于是团队修改测试集中改的题目，重新测试大模型，结果发现只是简单的修改名字，比如把猕猴桃改成奇异果这样的操作，AI们的准确率直接下滑10%。研究员反问，小学生面对这种情况，成绩会下滑10%吗？
接着团队对AI进行干扰测试，在原题目中增删信息，比如在上面的题目加上五个猕猴桃尺寸比平均水平小会思考的GPUE居然认为答案要减去就有五个较小的猕猴桃。而在这个环节，微软的PHI模型准确率甚至下降65.7%。
据此苹果的研究人员表示，现在的测试集内容早已泄露，大家都可以靠刷题拿高分，行业需要更好的评测方式来证明大模型拥有思考能力。
### 大模型评测攻略
在当今科技飞速发展的时代，大模型的应用越来越广泛。然而，如何准确评测大模型的能力成为了一个关键问题。
首先，我们要了解苹果团队对大模型的质疑。他们聚焦于J38K数学数据集，发现模型在该数据集中的表现存在波动。比如，同个模型反复测试，正确率波动高达10%。这表明模型的稳定性有待提高。
接着，团队进行了有趣的测试。简单修改题目中的名字，像把猕猴桃改成奇异果，AI的准确率就直接下滑10%。这说明模型可能只是在机械记忆答案，而非真正理解题目。
干扰测试也很有意义。在原题目中增删信息，微软的PHI模型准确率甚至下降65.7%。这进一步凸显了现有测试集的问题。
那么，我们该如何应对呢？行业需要更好的评测方式。这可能包括设计更复杂、更具挑战性的测试题目，涵盖各种不同类型的知识和场景。
对于开发者来说，要不断优化模型，提高其对各种变化的适应性。同时，也需要建立更严格的评测标准，确保模型真正具备思考能力。
普通用户在使用大模型相关产品时，也可以关注其评测方式和结果，以便更好地选择适合自己的产品。总之，大模型的评测是一个持续发展的过程，我们需要不断探索和改进，才能让大模型更好地服务于我们的生活和工作。
苹果大模型数学数据集测试准确率评测方式
[Q]：苹果团队质疑大模型的什么问题？
[A]：质疑大模型是小镇做题家，不会推理，只会按题回答问题。
[Q]：团队将火力集中在哪个数据集？
[A]：J38K数学数据集。
[Q]：GPT3和微软大模型在该数据集上的正确率如何？
[A]：三年前175B参数的GPT3正确率35%，三年后3D参数的微软大模型正确率84.9%。
[Q]：同个模型在数据集中反复测试的结果怎样？
[A]：正确率波动高达10%。
[Q]：简单修改题目名字对AI准确率有何影响？
[A]：AI准确率直接下滑10%。
[Q]：干扰测试是如何进行的？
[A]：在原题目中增删信息。
[Q]：微软的PHI模型在干扰测试中的准确率变化如何？
[A]：准确率下降65.7%。
[Q]：苹果研究人员得出了什么结论？
[A]：现在测试集内容泄露，行业需更好评测方式证明大模型有思考能力。

豆抖大人2025-12-15 09:31:09