[论文解读] Do LLMs Benefit From Their Own Words?
论文表明在多轮提示中省略先前助手的回应往往能保持甚至提升回答质量,同时显著减少上下文长度,并存在上下文污染的案例以及一种自适应策略来有选择地省略助手历史。
Multi-turn interactions with large language models typically retain the assistant's own past responses in the conversation history. In this work, we revisit this design choice by asking whether large language models benefit from conditioning on their own prior responses. Using in-the-wild, multi-turn conversations, we compare standard (full-context) prompting with a user-turn-only prompting approach that omits all previous assistant responses, across three open reasoning models and one state-of-the-art model. To our surprise, we find that removing prior assistant responses does not affect response quality on a large fraction of turns. Omitting assistant-side history can reduce cumulative context lengths by up to 10x. To explain this result, we find that multi-turn conversations consist of a substantial proportion (36.4%) of self-contained prompts, and that many follow-up prompts provide sufficient instruction to be answered using only the current user turn and prior user turns. When analyzing cases where user-turn-only prompting substantially outperforms full context, we identify instances of context pollution, in which models over-condition on their previous responses, introducing errors, hallucinations, or stylistic artifacts that propagate across turns. Motivated by these findings, we design a context-filtering approach that selectively omits assistant-side context. Our findings suggest that selectively omitting assistant history can improve response quality while reducing memory consumption.
研究动机与目标
- 研究在现实世界的多轮对话中,保留过去助手输出是否提升下游回答质量。
- 量化先前助手回应在后续轮次中的实际有用性有多少。
- 识别 past responses 影响性能的现象(上下文污染)并描述它们的普遍性。
- 开发一种自适应方法,决定在每轮中何时包含/省略助手历史,以优化质量和效率。
提出的方法
- 使用 WildChat 与 ShareLM 的实际多轮对话,比较 Full Context(包含所有先前轮次)与 Assistant-Omitted(AO)提示。
- 评估四种模型(Qwen3-4B、DeepSeek-R1-Distill-Llama-8B、GPT-OSS-20B、GPT-5.2)。
- 在 AO 中用占位符替代过往助手轮次以保持结构的一致性。
- 使用一个对话评审(GPT-5)在两种视角下评价回答质量和任务遵循性:一是看到完整历史,二是只看到用户轮次。
- 将提示分类为类别(New Ask、Follow-up with Feedback、Follow-up without Feedback)以分析对先前助手回应的依赖。
- 衡量上下文长度的消耗,并分析先前回应降解性能的上下文污染案例。
- 提出一种自适应上下文策略,使用逻辑回归分类器在逐轮层面预测何时更偏好 FC 而非 AO。
实验结果
研究问题
- RQ1现实世界的多轮对话在多模型条件下是否从依赖于前置助手回应中获益?
- RQ2有多少轮次是自包含的,仅使用当前及先前用户轮次就能解决?
- RQ3先前助手回应引起的上下文污染的普遍性及影响如何?
- RQ4我们能可靠地自适应性地省略助手历史而不牺牲质量,同时减少上下文长度吗?
主要发现
- 存储先前助手回应并非一律有益;某些模型在 AO 情况下仍能维持质量,而在全历史上下文评估下则可能下降。
- 当评审者只看到用户轮次时,AO 常常在四个模型中整体提升回答质量。
- AO 提示在与 FC 提示相比时,显著减少上下文长度,约下降 5–10 倍。
- 36.4% 的轮次是自包含的新提问(new-ask),并且在仅使用用户轮次的情况下,后续跟进往往能从头开始解决。
- 存在上下文污染案例,即过去的助手输出会引入错误或幻觉并在轮次间传播。
- 使用分类器的自适应上下文省略方法可以在保持超过 95% 的 FC 性能的同时,显著减少令牌数量。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。