微软论文揭示大模型正确用法及性能变化

豆抖大人2025-11-13 12:31:45

微软论文指出大模型正确用法，非连续任务需求应一次性说清。微软调研发现多数用户多轮聊天才能讲清需求，类似甲乙方沟通易拉扯。在15个顶级模型中复现用户操作测试数学问题，发现多轮对话补充条件会使大模型平均性能下降39%，单轮对话中准确率超10%的模型多轮设置中常降至约60%。十大模型易迷失的主要原因包括任务条件不充分时模型自行猜测、用户不能一次性补全条件导致模型过度依赖之前推进，随着对话错误累积、输出冗长致幻觉出现，且大模型过度关注首尾对话产生中间信息丢失效应。通过数学例子说明，单轮对话模型正确率高达90%，对话次数增加后，拉玛3到8B平均正确率降至37.4%，GPT4O平均正确率降至58.7%，因早期轮次假设因素生成错误答案后无法修正，额外推理也无法减缓正确率下降。因此用户最好整合需求到一个提示中，对话跑题可要求AI整合摘要开始新绘画，大模型开发者应优化模型，多轮上下文优先考虑完整，避免提示词条件不完整时模型产生幻觉。
**《大模型使用攻略：掌握正确方法，提升使用效果》**

在当今数字化时代，大模型的应用越来越广泛。然而，很多人在使用大模型时，并没有掌握正确的方法，导致无法充分发挥其性能。今天，我们就来深入探讨一下大模型的正确用法。

首先，对于非连续性任务，一定要尽量把所有需求一次性说清楚。这就好比你给大模型布置一项任务，你的需求有要求一、要求2、要求三等等，只有这样，大模型才能用到最好的性能。

微软的调研发现，大部分用户经常要通过多轮聊天才能将自己的需求讲清楚。这就像甲方跟乙方说需求一样，做完才发现不是自己要的，然后又要求乙方修改，陷入了拉扯之中。在使用大模型时，这种情况也会导致效率低下。

微软在包括GPT4.1、cloud 3.7、deep sick RE在内的15个顶级模型中进行了研究。他们发现，当用户用多轮对话补充条件时，相较于单轮对话给出充分指令的任务，大模型的平均性能下降达39%。单轮对话中准确率超过10%的模型，在多轮设置中通常会下降到约60%。

那么，十大模型容易迷失的主要原因是什么呢？一是对话中任务条件没有充分明确，模型只能自己猜测做出正确的任务；二是如果用户不能一次性补全条件，模型会过度依赖之前的推进，随着对话进行，错误会越积越多，产生过于冗长的输出，进一步导致幻觉的出现。此外，大模型通常过度关注第一轮和最后一轮对话，产生中间信息丢失效应。

举个数学例子来说明。一个比较好的指令是：杰伊为雪仗准备雪球，每小时制作20个，但每15分钟融化二个。他需要多久才能拥有60个雪球？而有些用户是这样提问的：第一轮用户提问，杰伊需要多久准备好雪仗。第二轮补充，他在和妹妹准备雪仗。第三轮补充，他每小时能制作20个雪球。第四轮补充，目标是制作60个雪球。第五轮补充，每15分钟会融化二个。按照这样的逻辑测试，大模型实验结果显示，单轮对话中模型的正确率高达90%，而对话次数上升以后，拉玛3到8B平均正确率降至37.4%，GPT4O平均正确率降至58.7%。原因是模型在早期轮次，比如第三轮对话开始假设因素生成错误答案后无法修正。即使推理模型在测试中自己进行额外的推理，也不会减缓正确率下降退化。

所以，用户最好将所有需求整合到一个提示中，而不是在多轮对话中逐步澄清。如果对话跑题了，要求AI整合摘要开始新的绘画会得到更好的结果。而大模型开发者也应该优化大模型，在多轮上下文文中优先考虑完整的信息，避免因为提示词条件不完整，导致大模型自己乱想产生幻觉。希望大家都能掌握这些方法，让大模型更好地为我们服务。
大模型,正确用法,多轮对话,性能下降,需求整合
[Q]：大模型在非连续性任务中如何使用才能发挥最佳性能？
[A]：尽量把所有需求一次说清楚。
[Q]：多轮对话补充条件对大模型性能有何影响？
[A]：相较于单轮对话给出充分指令的任务，大模型平均性能下降达39%。
[Q]：单轮对话中准确率超过10%的模型，在多轮设置中会怎样？
[A]：通常下降到约60%。
[Q]：十大模型容易迷失的主要原因是什么？
[A]：任务条件不充分时模型自行猜测，用户不能一次性补全条件致模型过度依赖之前推进，随着对话错误累积、输出冗长致幻觉出现，大模型过度关注首尾对话产生中间信息丢失效应。
[Q]：模型在早期轮次出现错误答案后会怎样？
[A]：无法修正，即使额外推理也不会减缓正确率下降退化。
[Q]：用户应如何与大模型交流以获得更好结果？
[A]：最好将所有需求整合到一个提示中，对话跑题可要求AI整合摘要开始新绘画。
[Q]：大模型开发者应如何优化模型？
[A]：在多轮上下文文中优先考虑完整的，避免提示词条件不完整时模型产生幻觉。
[Q]：一个好的指令应该具备什么特点？
[A]：清晰明确，避免模糊和逐步补充导致的问题。