QUICK REVIEW

[논문 리뷰] Do LLMs Benefit From Their Own Words?

Jenny Y. Huang, Leshem Choshen|arXiv (Cornell University)|2026. 02. 27.

AI in Service Interactions인용 수 0

한 줄 요약

이 논문은 다중 턴 프롬프트에서 이전 보조 응답을 생략하는 것이 종종 응답 품질을 유지하거나 심지어 향상시키고 맥락 길이를 크게 줄이며, 맥락 오염 사례와 선택적으로 보조 기록을 생략하는 적응 전략을 제시한다.

ABSTRACT

Multi-turn interactions with large language models typically retain the assistant's own past responses in the conversation history. In this work, we revisit this design choice by asking whether large language models benefit from conditioning on their own prior responses. Using in-the-wild, multi-turn conversations, we compare standard (full-context) prompting with a user-turn-only prompting approach that omits all previous assistant responses, across three open reasoning models and one state-of-the-art model. To our surprise, we find that removing prior assistant responses does not affect response quality on a large fraction of turns. Omitting assistant-side history can reduce cumulative context lengths by up to 10x. To explain this result, we find that multi-turn conversations consist of a substantial proportion (36.4%) of self-contained prompts, and that many follow-up prompts provide sufficient instruction to be answered using only the current user turn and prior user turns. When analyzing cases where user-turn-only prompting substantially outperforms full context, we identify instances of context pollution, in which models over-condition on their previous responses, introducing errors, hallucinations, or stylistic artifacts that propagate across turns. Motivated by these findings, we design a context-filtering approach that selectively omits assistant-side context. Our findings suggest that selectively omitting assistant history can improve response quality while reducing memory consumption.

연구 동기 및 목표

실제 다중 턴 대화에서 과거 보조 출력 보유가 다운스트림 응답 품질을 향상시키는지 여부를 조사한다.
실제로 얼마나 자주 이전 보조 응답이 후속 턴에서 실제로 유용한지 정량화한다.
과거 응답이 성능에 해를 끼치는 현상(맥락 오염)을 식별하고 그 유병률을 특성화한다.
품질과 효율성을 최적화하기 위해 보조 기록을 포함할지 또는 생략할지 adaptive하게 결정하는 방법을 개발한다.

제안 방법

WildChat 및 ShareLM의 현장 다중 턴 채팅을 사용하여 Full Context(모든 이전 턴 포함)와 Assistant-Omitted(AO) 프롬 prompts를 비교한다.
네 가지 LLM(Qwen3-4B, DeepSeek-R1-Distill-Llama-8B, GPT-OSS-20B, GPT-5.2)을 평가한다.
AO에서 과거 보조 턴을 자리표시자(placeholder)로 대체하여 구조를 보존하는 프롬프트 구성을 사용한다.
두 가지 시야에서 LLM-저지(GPT-5)로 응답 품질과 작업 준수를 평가한다. 하나는 전체 이력을 보는 시야이고, 다른 하나는 사용자 턴만 보는 시야이다.
프롬프트를 분류하여(New Ask, Follow-up with Feedback, Follow-up without Feedback) 과거 보조 응답에 대한 의존도를 분석한다.
맥락 길이 사용량을 측정하고 과거 보조 응답이 성능을 저하시킨 맥락 오염 사례를 분석한다.
로지스틱 회귀 분류기를 사용하여 FC가 AO보다 선호되는 경우를 턴별로 예측하는 적응적 맥락 전략을 제안한다.

실험 결과

연구 질문

RQ1실제 현장 다중 턴 채팅이 여러 모델에서 이전 보조 응답에 조건부를 두는 것의 이점을 얻는가?
RQ2턴이 자립적으로 해결 가능한지, 현재 및 이전 사용자 턴만으로 해결 가능한가?
RQ3과거 보조 응답으로 인한 맥락 오염의 유병률과 영향은 무엇인가?
RQ4품질을 손상시키지 않으면서 맥락 길이를 줄이고 보조 기록을 적응적으로 생략할 수 있는가?

주요 결과

이전 보조 응답을 저장하는 것이 항상 이롭지는 않다; 일부 모델은 AO에서도 품질을 유지하지만, 다른 모델은 전체 이력 맥락에서 AO에서 하락한다.
사용자가 보는 시야가 사용자 턴만인 저지에 의해 평가될 때, AO는 네 가지 모델 전부에서 응답 품질을 종종 향상시킨다.
AO 프롬프트는 FC 프롬프트에 비해 맥락 길이를 크게 줄이며 약 5–10배의 절감을 보인다.
턴 중 36.4%는 자립적 신규 요청(New-Ask) 프롬프트이며, 구체적 지시가 포함된 팔로우업은 사용자 턴만으로도 해결되는 경우가 많다.
맥락 오염 사례가 존재하여 과거 보조 출력이 오류나 망상을 도입하고 턴 간에 전파될 수 있다.
분류기를 사용하는 적응적 맥락 생략 접근법은 FC 성능의 95% 이상을 유지하면서 토큰 사용량을 크게 줄일 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.