大模型解数学题测试：思路与答案的碰撞

豆抖大人2025-11-06 10:01:15

大模型在数学上居然开窍了，自创数字比较方法解数学题，让GPA4比较13.1和13.8谁大。他知道0.11比0.8小却得出13.11比13.8大属于是思路对了，答案错了。但这只是开胃菜，接下来的测试才有意义。同样的问题交给天力天宫豆包、通义千问、文心一言、海螺AI以及质朴轻盈。结果答对的千篇一律，答错的人都在创新。比如Kimi表示13.11比13.8大，他认为整数部分一样，所以单独取出小数点后的数字比较，发现11比8大，所以13.1更大。天宫豆包、文心一言3.5以及海螺湾思路清晰，并且都答对了。接下来的通义千问2.5也自创了小数对比法，他认为13.11小数点后有两位数，比13.8小数点后的一位数大。质朴轻言上来就联网查询，我想的是上网找答案总不会错了吧。结果他查完说，0.11比0.8大，这是一个数学常识。为了再验证一遍是不是偶然错误，以及大模型是否存在抄作业现象，我将数字改为12.11和12.8。这一次GPT4给出了正确答案，而Kimi则依旧照着他那套11比8大的说法，认为12.1比12.8大质朴卿言的说法。我花了点时间理解，他的意思是小数点后的十分位上0.11的数字是12，0.80的数字是零。所以12.11比12.8的通义千问这次一雪前耻答对了。其余几个AI也全部答对。也就是说在第二轮测试中，只有Kimi和质朴青年仍有幻觉，AI数字高考集体不及格的原因或许找到。
在当今数字化时代，大模型在各领域发挥着重要作用。就拿数学题来说，它展现出了独特的解题方式。比如比较数字大小，大模型的表现参差不齐。像让GPA4比较13.1和13.8谁大，竟出现了令人意外的答案。这引发了大家对大模型数学能力的深入探讨。在测试中，不同的大模型有着不同的表现。有的自创数字比较方法，却得出错误结论；有的则思路清晰答对题目。这其中的差异值得我们去研究。对于广大用户而言，了解大模型在数学题上的情况，有助于我们更好地利用它们。比如在学习、工作中，能判断其提供的数学相关答案是否可靠。同时，也能促使大模型开发者不断优化模型，提升其数学运算等能力。总之，关注大模型解数学题的表现，对我们有着重要的意义。
大模型,数学题,数字比较,GPT4,AI测试
[Q]：测试了哪些大模型解数学题？
[A]：测试了GPA4、天力天宫豆包、通义千问、文心一言、海螺AI、质朴轻盈、Kimi、GPT4等。
[Q]：大模型在比较13.1和13.8大小时出现了什么情况？
[A]：有的得出13.11比13.8大的错误答案。
[Q]：哪些大模型答对了比较数字大小的问题？
[A]：天宫豆包、文心一言3.5、海螺湾、通义千问2.5在第二轮测试中答对。
[Q]：Kimi在比较数字大小时的思路是什么？
[A]：Kimi认为整数部分一样，单独取出小数点后的数字比较，11比8大，所以认为13.1更大。
[Q]：质朴轻言在测试中做了什么？
[A]：质朴轻言上来就联网查询，得出0.11比0.8大的错误答案。
[Q]：第二轮测试改变数字后结果如何？
[A]：GPT4给出正确答案，Kimi依旧答错，通义千问答对，其余几个AI也全部答对。
[Q]：AI数字高考集体不及格的原因找到了吗？
[A]：或许找到，第二轮测试中只有Kimi和质朴青年仍有错误表现。
[Q]：通义千问2.5之前答错后情况怎样？
[A]：通义千问2.5之前答错，第二轮测试一雪前耻答对了。