[논문 리뷰] Large Language Models Can Be Easily Distracted by Irrelevant Context
본 논문은 GSM-IC라는 산출 유도 주의력을 위한 산술 추론 벤치마크를 도입하고, 무관한 맥락이 프롬프트 방식에 현저히 악영향을 미친다는 점을 보여준다; 자기 일관성과 지시적 프롬 prompting은 이를 완화할 수 있지만 문제를 제거하진 못한다.
Large language models have achieved impressive performance on various natural language processing tasks. However, so far they have been evaluated primarily on benchmarks where all information in the input context is relevant for solving the task. In this work, we investigate the distractibility of large language models, i.e., how the model problem-solving accuracy can be influenced by irrelevant context. In particular, we introduce Grade-School Math with Irrelevant Context (GSM-IC), an arithmetic reasoning dataset with irrelevant information in the problem description. We use this benchmark to measure the distractibility of cutting-edge prompting techniques for large language models, and find that the model performance is dramatically decreased when irrelevant information is included. We also identify several approaches for mitigating this deficiency, such as decoding with self-consistency and adding to the prompt an instruction that tells the language model to ignore the irrelevant information.
연구 동기 및 목표
- 모든 정보가 관련된 것은 아니며, 현실적인 산만한 입력 맥락에서 LLM의 평가를 동기 부여한다.
- 모델 민감도를 측정하기 위해 불필요한 문장을 삽입한 GSM8K 파생 데이터셋인 GSM-IC를 구축한다.
- GSM-IC에서 최첨단 프롬프트 기법을 평가하고 모델 간 산만성(distractibility)을 정량화한다.
- 무관한 맥락에 대한 강인성을 향상시키는 완화 전략을 식별한다(예: self-consistency, distractor exemplars, ignore-context 지시).
제안 방법
- 정답 해를 바꾸지 않으면서 기본 GSM8K 문제에 불필요한 문장을 추가하여 GSM-IC를 만든다.
- 코드-davinci-002 및 text-davinci-003를 사용하여 GSM-IC에서 self-consistency 여부에 관계없이 프롬프트 기법(CoT, 0-CoT, LtM, Program)을 평가한다.
- 프롬프트 설계 분석, 산만 요소가 포함된 예시와 무시 맥락 지시를 포함한 지시 기반 프롬프트를 분석한다.
- 산만도와 강인성을 정량화하기 위해 micro, macro, normalized 정확도를 측정한다.
- 무관한 맥락의 요인(주제 중복, 역할 이름 중복, 숫자 범위)을 식별하고 그 영향력을 분석한다.
- 더 긴 맥락에서의 강인성을 테스트하기 위해 DROP에 축구 예시를 포함시켜 평가를 확장한다.

실험 결과
연구 질문
- RQ1무관한 맥락 정보의 포함이 산술 추론 과제에서 현재 프롬프트 기법의 정확도에 어떤 영향을 미치는가?
- RQ2무관한 정보로 유발된 산만함을 완화할 수 있는 프롬프트 전략(자기 일관성, 산만 요소가 있는 예시, 무시 맥락 지시)이 있는가?
- RQ3무관한 맥락의 어떤 요인이 모델 성능에 가장 큰 영향을 미치며, 모델 아키텍처나 프롬프트 스타일은 이 민감도에 어떻게 조절하는가?
- RQ4GSM-IC에서의 강인성 향상이 다른 데이터셋/작업(예: DROP) 및 다양한 모델 계열로 확산되는가?
주요 결과
- 조사된 모든 프롬프트 기법은 무관한 정보에 민감하며 매크로 정확도가 크게 하락한다(일관되게 해결된 것은 30% 미만).
- 자기 일관성은 강인성을 크게 향상시키며, 문제당 20개의 샘플에서 일부 프롬프트의 경우 정답이 샘플의 99.7%에서 나타난다.
- 예시 산만 요소와 무시 맥락 지시는 프롬프트와 모델에 걸쳐 일관되게 강인성을 향상시킨다.
- LtM은 마이크로 정확도에 대해 일반적으로 무관한 맥락에 가장 강인하지만 매크로 이득은 모델 및 프롬 prompting 설정에 따라 다르다.
- 세부 분석은 주제 중복과 주제 내 산만 요소가 매크로 정확도에 가장 큰 해를 끼치며, 숫자 자체는 원래 문제와의 어휘적 중첩보다 영향이 작다.
- 지시 기반 프롬 prompting(예: 무관한 정보를 무시하라고 모델에 지시)이 현저한 이득을 주며, 지시 유형이 중요하다(노골적인 ignore-context 지시가 결정적이다).
- DROP에서 LtM과 그 지시 변형이 개선을 제공하며, GSM-IC를 넘는 더 넓은 관련성을 시사한다.
![Figure 2: Prompt formats for the investigated techniques on the right, which are constructed from building blocks on the left (best viewed in color). The [Problem with Irrelevant Context] is obtained by adding an irrelevant sentence ( italic and underlined ) to the original problem description and i](https://ar5iv.labs.arxiv.org/html/2302.00093/assets/x2.png)
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.