微软论文揭示大模型正确用法及性能变化

微软论文指出大模型正确用法,非连续任务需求应一次性说清。微软调研发现多数用户多轮聊天才能讲清需求,类似甲乙方沟通易拉扯。在15个顶级模型中复现用户操作测试数学问题,发现多轮对话补充条件会使大模型平均性能下降39%,单轮对话中准确率超10%的模型多轮设置中常降至约60%。十大模型易迷失的主要原因包括任务条件不充分时模型自行猜测、用户不能一次性补全条件导致模型过度依赖之前推进,随着对话错误累积、输出冗长致幻觉出现,且大模型过度关注首尾对话产生中间信息丢失效应。通过数学例子说明,单轮对话模型正确率高达90%,对话次数增加后,拉玛3到8B平均正确率降至37.4%,GPT4O平均正确率降至58.7%,因早期轮次假设因素生成错误答案后无法修正,额外推理也无法减缓正确率下降。因此用户最好整合需求到一个提示中,对话跑题可要求AI整合摘要开始新绘画,大模型开发者应优化模型,多轮上下文优先考虑完整,避免提示词条件不完整时模型产生幻觉。
**《大模型使用攻略:掌握正确方法,提升使用效果》**

在当今数字化时代,大模型的应用越来越广泛。然而,很多人在使用大模型时,并没有掌握正确的方法,导致无法充分发挥其性能。今天,我们就来深入探讨一下大模型的正确用法。

首先,对于非连续性任务,一定要尽量把所有需求一次性说清楚。这就好比你给大模型布置一项任务,你的需求有要求一、要求2、要求三等等,只有这样,大模型才能用到最好的性能。

微软的调研发现,大部分用户经常要通过多轮聊天才能将自己的需求讲清楚。这就像甲方跟乙方说需求一样,做完才发现不是自己要的,然后又要求乙方修改,陷入了拉扯之中。在使用大模型时,这种情况也会导致效率低下。

微软在包括GPT4.1、cloud 3.7、deep sick RE在内的15个顶级模型中进行了研究。他们发现,当用户用多轮对话补充条件时,相较于单轮对话给出充分指令的任务,大模型的平均性能下降达39%。单轮对话中准确率超过10%的模型,在多轮设置中通常会下降到约60%。

那么,十大模型容易迷失的主要原因是什么呢?一是对话中任务条件没有充分明确,模型只能自己猜测做出正确的任务;二是如果用户不能一次性补全条件,模型会过度依赖之前的推进,随着对话进行,错误会越积越多,产生过于冗长的输出,进一步导致幻觉的出现。此外,大模型通常过度关注第一轮和最后一轮对话,产生中间信息丢失效应。

举个数学例子来说明。一个比较好的指令是:杰伊为雪仗准备雪球,每小时制作20个,但每15分钟融化二个。他需要多久才能拥有60个雪球?而有些用户是这样提问的:第一轮用户提问,杰伊需要多久准备好雪仗。第二轮补充,他在和妹妹准备雪仗。第三轮补充,他每小时能制作20个雪球。第四轮补充,目标是制作60个雪球。第五轮补充,每15分钟会融化二个。按照这样的逻辑测试,大模型实验结果显示,单轮对话中模型的正确率高达90%,而对话次数上升以后,拉玛3到8B平均正确率降至37.4%,GPT4O平均正确率降至58.7%。原因是模型在早期轮次,比如第三轮对话开始假设因素生成错误答案后无法修正。即使推理模型在测试中自己进行额外的推理,也不会减缓正确率下降退化。

所以,用户最好将所有需求整合到一个提示中,而不是在多轮对话中逐步澄清。如果对话跑题了,要求AI整合摘要开始新的绘画会得到更好的结果。而大模型开发者也应该优化大模型,在多轮上下文文中优先考虑完整的信息,避免因为提示词条件不完整,导致大模型自己乱想产生幻觉。希望大家都能掌握这些方法,让大模型更好地为我们服务。
大模型,正确用法,多轮对话,性能下降,需求整合
[Q]:大模型在非连续性任务中如何使用才能发挥最佳性能?
[A]:尽量把所有需求一次说清楚。
[Q]:多轮对话补充条件对大模型性能有何影响?
[A]:相较于单轮对话给出充分指令的任务,大模型平均性能下降达39%。
[Q]:单轮对话中准确率超过10%的模型,在多轮设置中会怎样?
[A]:通常下降到约60%。
[Q]:十大模型容易迷失的主要原因是什么?
[A]:任务条件不充分时模型自行猜测,用户不能一次性补全条件致模型过度依赖之前推进,随着对话错误累积、输出冗长致幻觉出现,大模型过度关注首尾对话产生中间信息丢失效应。
[Q]:模型在早期轮次出现错误答案后会怎样?
[A]:无法修正,即使额外推理也不会减缓正确率下降退化。
[Q]:用户应如何与大模型交流以获得更好结果?
[A]:最好将所有需求整合到一个提示中,对话跑题可要求AI整合摘要开始新绘画。
[Q]:大模型开发者应如何优化模型?
[A]:在多轮上下文文中优先考虑完整的,避免提示词条件不完整时模型产生幻觉。
[Q]:一个好的指令应该具备什么特点?
[A]:清晰明确,避免模糊和逐步补充导致的问题。
share