[논문 리뷰] Using Counterfactual Tasks to Evaluate the Generality of Analogical Reasoning in Large Language Models
이 논문은 counterfactual letter-string analogy 문제를 만들어 LLM이 일반적 추상적 추론인지 아니면 훈련 데이터 유사성에 의존하는지 테스트하고, 인간은 강하게 성공하는 반면 GPT 모델은 counterfactual 변형에서 성능이 저하되는 것을 발견한다.
Large language models (LLMs) have performed well on several reasoning benchmarks, including ones that test analogical reasoning abilities. However, it has been debated whether they are actually performing humanlike abstract reasoning or instead employing less general processes that rely on similarity to what has been seen in their training data. Here we investigate the generality of analogy-making abilities previously claimed for LLMs (Webb, Holyoak, & Lu, 2023). We take one set of analogy problems used to evaluate LLMs and create a set of "counterfactual" variants-versions that test the same abstract reasoning abilities but that are likely dissimilar from any pre-training data. We test humans and three GPT models on both the original and counterfactual problems, and show that, while the performance of humans remains high for all the problems, the GPT models' performance declines sharply on the counterfactual set. This work provides evidence that, despite previously reported successes of LLMs on analogical reasoning, these models lack the robustness and generality of human analogy-making.
연구 동기 및 목표
- LLM이 훈련 데이터 유사성 너머의 인간과 유사한 일반적 추상적 유추를 보이는지 평가한다.
- counterfactual 알파벳 및 비문자 기호를 사용하여 LLM의 유추 해결 능력의 강인성을 시험한다.
- 원래 문제와 counterfactual 문제에서 인간 성과를 GPT-3, GPT-3.5, GPT-4와 비교한다.
- LLM에서 유추 형성의 일반성을 평가하기 위한 데이터셋과 방법론을 제공한다.
제안 방법
- 크기가 n인 알파벳을 {0,2,5,10,20}로 순열하고 비문자 기호 알파벳을 추가하여 counterfactual 유추 문제를 생성한다.
- Webb 등으로부터의 여섯 가지 변환 유형과 두 가지 일반화 변형을 사용하여 알파벳 크기당 420개의 문제를 만들고 비치환 사례를 추가한다.
- 고정된 온도에서 제로샷 프롬프트로 인간(136명)과 세 가지 GPT 모델(GPT-3, GPT-3.5, GPT-4)을 평가한다.
- successors와 predecessors에 대한 모델 이해를 확인하기 위한 counterfactual 이해도 점검을 포함한다.
- 정확도와 오류 유형을 분석하고 알파벳 유형 및 문제 유형 간의 성능 차이를 비교한다.
실험 결과
연구 질문
- RQ1GPT 모델은 인간과 마찬가지로 counterfactual letter-string 유추에서 성능을 유지하는가?
- RQ2알파벳 순열이나 기호 치환이 GPT 모델의 유추 능력에 어떤 영향을 미치는가?
- RQ3GPT 모델의 유추 능력이 강건하고 일반적인가, 아니면 주로 훈련 데이터 유사성에 의존하는가?
주요 결과
- 인간은 알파벳 유형에 관계없이 원래 문제와 counterfactual 문제 모두에서 높은 성능을 유지한다.
- GPT 모델은 원래 문제에서 높은 정확도를 보이지만 counterfactual에서 감소하며, GPT-3.5와 GPT-4는 인간에 비해 현저히 낮은 성능을 보인다.
- 표준에서 순열된 알파벳으로, 그리고 더 나아가 기호 알파벳으로 이동하면 GPT 모델의 성능이 하락하여 일반성의 한계를 시사한다.
- GPT 모델은 인간과 다른 명확한 오류 패턴을 보이며, 창의적 대안 규칙보다는 문자적이거나 잘못된 규칙에 더 의존하는 경향이 있다.
- 전반적으로 결과는 GPT 모델이 일반적인 추상적 추론으로 인간에 맞먹는 유추를 해결한다는 주장에 도전한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.