苹果质疑大模型:只会答题不会推理,行业需新评测
苹果发论文质疑大模型是小镇做题家,不会推理,只会被题回答问题。
团队把火力集中在J38K数学数据集中,该数据集由8500道小学数学题组成,三年前175B参数的GPT3正确率只有35%,而三年后3D参数的微软大模型正确率高达84.9%。但同个模型在这个数据集中反复测试,正确率的波动高达10%。
于是团队修改测试集中改的题目,重新测试大模型,结果发现只是简单的修改名字,比如把猕猴桃改成奇异果这样的操作,AI们的准确率直接下滑10%。研究员反问,小学生面对这种情况,成绩会下滑10%吗?
接着团队对AI进行干扰测试,在原题目中增删信息,比如在上面的题目加上五个猕猴桃尺寸比平均水平小会思考的GPUE居然认为答案要减去就有五个较小的猕猴桃。而在这个环节,微软的PHI模型准确率甚至下降65.7%。
据此苹果的研究人员表示,现在的测试集内容早已泄露,大家都可以靠刷题拿高分,行业需要更好的评测方式来证明大模型拥有思考能力。
### 大模型评测攻略
在当今科技飞速发展的时代,大模型的应用越来越广泛。然而,如何准确评测大模型的能力成为了一个关键问题。
首先,我们要了解苹果团队对大模型的质疑。他们聚焦于J38K数学数据集,发现模型在该数据集中的表现存在波动。比如,同个模型反复测试,正确率波动高达10%。这表明模型的稳定性有待提高。
接着,团队进行了有趣的测试。简单修改题目中的名字,像把猕猴桃改成奇异果,AI的准确率就直接下滑10%。这说明模型可能只是在机械记忆答案,而非真正理解题目。
干扰测试也很有意义。在原题目中增删信息,微软的PHI模型准确率甚至下降65.7%。这进一步凸显了现有测试集的问题。
那么,我们该如何应对呢?行业需要更好的评测方式。这可能包括设计更复杂、更具挑战性的测试题目,涵盖各种不同类型的知识和场景。
对于开发者来说,要不断优化模型,提高其对各种变化的适应性。同时,也需要建立更严格的评测标准,确保模型真正具备思考能力。
普通用户在使用大模型相关产品时,也可以关注其评测方式和结果,以便更好地选择适合自己的产品。总之,大模型的评测是一个持续发展的过程,我们需要不断探索和改进,才能让大模型更好地服务于我们的生活和工作。
苹果 大模型 数学数据集 测试 准确率 评测方式
[Q]:苹果团队质疑大模型的什么问题?
[A]:质疑大模型是小镇做题家,不会推理,只会按题回答问题。
[Q]:团队将火力集中在哪个数据集?
[A]:J38K数学数据集。
[Q]:GPT3和微软大模型在该数据集上的正确率如何?
[A]:三年前175B参数的GPT3正确率35%,三年后3D参数的微软大模型正确率84.9%。
[Q]:同个模型在数据集中反复测试的结果怎样?
[A]:正确率波动高达10%。
[Q]:简单修改题目名字对AI准确率有何影响?
[A]:AI准确率直接下滑10%。
[Q]:干扰测试是如何进行的?
[A]:在原题目中增删信息。
[Q]:微软的PHI模型在干扰测试中的准确率变化如何?
[A]:准确率下降65.7%。
[Q]:苹果研究人员得出了什么结论?
[A]:现在测试集内容泄露,行业需更好评测方式证明大模型有思考能力。
团队把火力集中在J38K数学数据集中,该数据集由8500道小学数学题组成,三年前175B参数的GPT3正确率只有35%,而三年后3D参数的微软大模型正确率高达84.9%。但同个模型在这个数据集中反复测试,正确率的波动高达10%。
于是团队修改测试集中改的题目,重新测试大模型,结果发现只是简单的修改名字,比如把猕猴桃改成奇异果这样的操作,AI们的准确率直接下滑10%。研究员反问,小学生面对这种情况,成绩会下滑10%吗?
接着团队对AI进行干扰测试,在原题目中增删信息,比如在上面的题目加上五个猕猴桃尺寸比平均水平小会思考的GPUE居然认为答案要减去就有五个较小的猕猴桃。而在这个环节,微软的PHI模型准确率甚至下降65.7%。
据此苹果的研究人员表示,现在的测试集内容早已泄露,大家都可以靠刷题拿高分,行业需要更好的评测方式来证明大模型拥有思考能力。
### 大模型评测攻略
在当今科技飞速发展的时代,大模型的应用越来越广泛。然而,如何准确评测大模型的能力成为了一个关键问题。
首先,我们要了解苹果团队对大模型的质疑。他们聚焦于J38K数学数据集,发现模型在该数据集中的表现存在波动。比如,同个模型反复测试,正确率波动高达10%。这表明模型的稳定性有待提高。
接着,团队进行了有趣的测试。简单修改题目中的名字,像把猕猴桃改成奇异果,AI的准确率就直接下滑10%。这说明模型可能只是在机械记忆答案,而非真正理解题目。
干扰测试也很有意义。在原题目中增删信息,微软的PHI模型准确率甚至下降65.7%。这进一步凸显了现有测试集的问题。
那么,我们该如何应对呢?行业需要更好的评测方式。这可能包括设计更复杂、更具挑战性的测试题目,涵盖各种不同类型的知识和场景。
对于开发者来说,要不断优化模型,提高其对各种变化的适应性。同时,也需要建立更严格的评测标准,确保模型真正具备思考能力。
普通用户在使用大模型相关产品时,也可以关注其评测方式和结果,以便更好地选择适合自己的产品。总之,大模型的评测是一个持续发展的过程,我们需要不断探索和改进,才能让大模型更好地服务于我们的生活和工作。
苹果 大模型 数学数据集 测试 准确率 评测方式
[Q]:苹果团队质疑大模型的什么问题?
[A]:质疑大模型是小镇做题家,不会推理,只会按题回答问题。
[Q]:团队将火力集中在哪个数据集?
[A]:J38K数学数据集。
[Q]:GPT3和微软大模型在该数据集上的正确率如何?
[A]:三年前175B参数的GPT3正确率35%,三年后3D参数的微软大模型正确率84.9%。
[Q]:同个模型在数据集中反复测试的结果怎样?
[A]:正确率波动高达10%。
[Q]:简单修改题目名字对AI准确率有何影响?
[A]:AI准确率直接下滑10%。
[Q]:干扰测试是如何进行的?
[A]:在原题目中增删信息。
[Q]:微软的PHI模型在干扰测试中的准确率变化如何?
[A]:准确率下降65.7%。
[Q]:苹果研究人员得出了什么结论?
[A]:现在测试集内容泄露,行业需更好评测方式证明大模型有思考能力。
评论 (0)
