谷歌研究团队发表新论文《Prompt Repetition Improves Non-Reasoning LLMs》([2512.14982] Prompt Repetition Improves Non-Reasoning LLMs),内容提到一个模型使用的小技巧。在不要求模型进行逐步推理的情况下,将用户的输入提示(Prompt)简单地重复一遍,能显著提升多种主流大语言模型的性能,且不增加生成内容的长度或延迟。将输入从 转换为 ,即原样重复整个提示。原理为:解决注意力限制:大语言模型通常是因果语言模型,意味着前面的token无法“看到”后面的token。这导致提示中信息的顺序(例如,问题在前还是选项在前)可能影响模型表现。重复提示后,第一遍提示中的每个token都能通过注意力机制“看到”第二遍提示中的所有token,从而获得更全局的上下文信息。效率与兼容性:重复操作发生在可并行计算的“预填充”阶段,因此不会增加模型生成答案的token数量,也不会增加端到端的延迟。同时,它不改变输出格式,可以无缝集成到现有系统中。简单说,即第一轮问的时候,直接在输入框,把同一内容写两遍,直接发过去(只有一轮)。如图。注意:本论文主要针对非推理情况,对于推理情况,论文结论是提升不明显故没必要。论文也提到,重复三次会有提升,但很少,故也没必要。

标签: none

评论已关闭