[논문 리뷰] Reasoning or Reciting? Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks
이 논문은 일반적 추론과 과제 특유의 암기 여부를 평가하기 위한 반사실(counterfactual) 평가 프레임워크를 도입합니다. 반사실 변형은 일반적으로 성능을 저하시킨다는 점을 발견했으며, 이는 이전-condition에 종속적이고 전달 불가능한 기본 전략을 시사합니다.
The impressive performance of recent language models across a wide range of tasks suggests that they possess a degree of abstract reasoning skills. Are these skills general and transferable, or specialized to specific tasks seen during pretraining? To disentangle these effects, we propose an evaluation framework based on "counterfactual" task variants that deviate from the default assumptions underlying standard tasks. Across a suite of 11 tasks, we observe nontrivial performance on the counterfactual variants, but nevertheless find that performance substantially and consistently degrades compared to the default conditions. This suggests that while current LMs may possess abstract task-solving skills to an extent, they often also rely on narrow, non-transferable procedures for task-solving. These results motivate a more careful interpretation of language model performance that teases apart these aspects of behavior.
연구 동기 및 목표
- 현재의 언어 모델이 반사실 작업Variant의 성능 평가를 통해 일반화 가능한 추론인지 또는 과제 특유의 암기인지 의존하는지 평가한다.
- 기본 작업 조건이 바뀌었을 때 성능이 어떻게 변하는지 정량화하고, 이 격차에 영향을 미치는 요인(예: 프롬프트 스타일, 기본 조건, 기본 조건과의 근접성)을 조사한다.
- LM 행동에서 추상화와 암기를 구분하기 위한 프레임워크와 데이터셋을 제공한다.
- 반사실 평가의 재현성과 확장을 가능하게 하기 위해 코드, 합성 데이터 및 LM 상호작용을 공개한다.
제안 방법
- 작동 시나리오 f가 기본 세계 w^{default}에서 입력 x로 주어질 때, 입력-출력 매핑은 바뀌되 기본적 추론 절차는 유지되는 반사실 세계 w^{cf}에서 평가하는 반사실 평가 프레임워크를 제안한다.
- 제로샷 프롬프트를 사용해 LMs를 질의하고 작업별 메트릭으로 h(f,w,x)을 측정하며, 프롬프트는 작업과 세계 모델을 모두 설명한다.
- 모델이 반사실 세계를 이해했는지 확인하는 반사실 이해 검사(CCC)를 도입하고, 기본 세계 w^{default}와 w^{cf}를 구분하는 더 간단한 제어 작업 g_w를 사용한다.
- 산술, 1-based 인덱싱을 포함한 프로그래밍, 구문 분석 추론, 자연어 논리, 공간 추론, 도형 그리기, 음악, 체스, SET에 이르는 11개 작업에 프레임워크를 적용한다.
- 기본 조건과 반사실 조건에서 GPT-4, GPT-3.5, Claude, PaLM-2를 프롬프트 형식에 따라 제로샷 체인-오브-생각(zero-shot chain-of-thought) 프롬팅 여부와 함께 평가한다.
실험 결과
연구 질문
- RQ1언어 모델이 반사실 세계에서 작업 해결 절차를 일반화할 수 있는가, 아니면 기본 조건에 특화된 전략에 의존하는가?
- RQ2다양한 작업과 모델에서 기본 성능과 반사실 성능 간의 관계는 어떤가?
- RQ3기본 표현, 세계와의 근접성, 프롬프트 스타일 등의 요인이 기본-반사실 차이에 어떤 영향을 미치는가?
- RQ4반사실 이해 검사가 실패가 반사실 프롬프트를 오해한 탓인지 혹은 추상적 추론의 부재 때문인지 밝히는가?
- RQ5소수 예시 프롐핑(few-shot prompting)이나 체인-오브-생각(prompt) 프롬팅이 기본과 반사실 작업Variant 간의 격차를 좁히는 데 어느 정도 도움이 되는가?
주요 결과
- 반사실 작업 Variant는 무작위가 아닌 수준의 성능을 보이나 기본 작업 성능에 비해 상당하고 일관된 저하를 보인다.
- GPT-4, GPT-3.5, Claude, PaLM-2 및 프롬프팅 regime 전반에 걸쳐 성능 차이가 지속적으로 나타나며, 비전이 가능한 기본 조건-특정 행동을 시사한다.
- 기본 성능과 반사실 성능 간의 상관관계가 존재하여 일부 전달 가능한 추론이 있음을 시사하지만, 많은 경우 기본 조건에 과적합되어 격차가 발생한다.
- 반사실 이해 검사(CCC)는 성공적일 때 보통 높지만, 여전히 큰 기본-반사실 격차의 존재로 인해 추상적이고 전달 가능한 추론에 한계가 있음을 시사한다.
- 반사실 조건의 일반성/근접성은 격차를 조절하며, 더 일반적이거나 근접한 반사실일수록 저하가 작아지는 경향이 있어 암기 효과를 시사한다.
- 제로샷 체인-오브-생각은 작업/모델에 따라 도움이 되거나 해로울 수 있으며, 소수 예시 데모는 기본-반사실 차이를 감소시키지만 완전히 제거하지는 못한다.
- 이 프레임워크와 결과는 LM 성능을 신중히 해석하도록 자극하며, 일반적 추론과 암기된 작업 특이적 동작을 구분한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.