[논문 리뷰] Evaluating the Logical Reasoning Ability of ChatGPT and GPT-4
본 논문은 대중적 및 신규 데이터셋에서 다수의 논리 추론 과제(다지선다 읽기 이해 및 자연어 추론)에 대해 ChatGPT와 GPT-4를 벤치마킹하고, LogiEval을 도입하며, 특히 분포 밖(out-of-distribution) 데이터에서의 성능 격차를 분석합니다.
Harnessing logical reasoning ability is a comprehensive natural language understanding endeavor. With the release of Generative Pretrained Transformer 4 (GPT-4), highlighted as "advanced" at reasoning tasks, we are eager to learn the GPT-4 performance on various logical reasoning tasks. This report analyses multiple logical reasoning datasets, with popular benchmarks like LogiQA and ReClor, and newly-released datasets like AR-LSAT. We test the multi-choice reading comprehension and natural language inference tasks with benchmarks requiring logical reasoning. We further construct a logical reasoning out-of-distribution dataset to investigate the robustness of ChatGPT and GPT-4. We also make a performance comparison between ChatGPT and GPT-4. Experiment results show that ChatGPT performs significantly better than the RoBERTa fine-tuning method on most logical reasoning benchmarks. With early access to the GPT-4 API we are able to conduct intense experiments on the GPT-4 model. The results show GPT-4 yields even higher performance on most logical reasoning datasets. Among benchmarks, ChatGPT and GPT-4 do relatively well on well-known datasets like LogiQA and ReClor. However, the performance drops significantly when handling newly released and out-of-distribution datasets. Logical reasoning remains challenging for ChatGPT and GPT-4, especially on out-of-distribution and natural language inference datasets. We release the prompt-style logical reasoning datasets as a benchmark suite and name it LogiEval.
연구 동기 및 목표
- 다양한 데이터셋에서 논리 추론 능력을 평가한다.
- 다지선다 읽기 이해 및 NLI 과제에서 RoBERTa 미세조정 베이스라인과의 성능을 비교한다.
- 분포 밖 데이터에 대한 강건성과 추론에 대한 프롬프트 설계 및 맥락의 영향을 조사한다.
- 프롬프트 스타일 벤치마크로서 LogiEval을 도입하고 대형 언어 모델 평가를 촉진한다.
제안 방법
- 두 가지 과제 유형에 대해 평가한다: 다지선다 읽기 이해와 자연어 추론(NLI).
- RoBERTa-base를 미세조정 베이스라인으로 사용하고, ChatGPT와 GPT-4의 API/UI 출력과 비교한다.
- ChatGPT와 GPT-4에 대해 지시-프롬프트 구성을 적용하고, NLI에는 라벨 기반 프롬프트를, MC 읽기 이해에는 명시적 과제 형식을 사용한다.
- 대화 창 안팎의 맥락 예시로 성능 향상을 평가하기 위한 GPT-4의 맥락 학습 실험.
- 추론 성능에 대한 영향을 평가하기 위한 제로샷 체인-오브-생각(Chain-of-Thought) 프롬프팅을 탐구한다.
실험 결과
연구 질문
- RQ1ChatGPT와 GPT-4가 기존의 논리 추론 벤치마크(LogiQA, ReClor) 및 신규 데이터셋(AR-LSAT)에서 어떤 성능을 보이는가?
- RQ2이 모델들이 분포 밖 데이터에서도 견고한 논리 추론을 보이는가, 그리고 RoBERTa 베이스라인과의 비교는 어떠한가?
- RQ3프롬프트 설계, 지시, 맥락이 ChatGPT와 GPT-4의 추론 성능에 어떤 영향을 미치는가?
- RQ4체인-오브-생각 프롬프팅이나 대화 내 맥락이 GPT-4의 논리 추론을 실제로 개선할 수 있는가?
주요 결과
| Dataset | RoBERTa | ChatGPT (API) | GPT-4 (Chat UI) | GPT-4 (API) |
|---|---|---|---|---|
| LogiQA 2.0 test | 48.76 | 52.37 | 75.26 (73/97) | 72.25 |
| LogiQA 2.0 zh test | 35.64 | 53.18 | 51.76 (44/85) | 70.56 |
| ReClor dev | 55.01 | 57.38 | 92.00 (92/100) | 87.20 |
| AR-LSAT test | 23.14 | 20.42 | 18.27 (19/104) | 33.48 |
| LogiQA 2.0 ood | 33.22 | 38.44 | 48.21 (54/112) | 58.49 |
| Notes | - | - | - | - |
- ChatGPT는 많은 잘 알려진 논리 추론 벤치마크에서 RoBERTa 베이스라인보다 우수한 성능을 보이지만, 분포 밖 데이터(예: AR-LSAT, LogiQA 2.0 ood)에서 감소합니다.
- GPT-4는 대체로 대부분의 데이터셋에서 ChatGPT보다 더 높은 정확도를 달성하지만, 분포 밖 데이터 및 일부 NLI 과제에서 큰 하락을 보이기도 합니다.
- ChatGPT와 GPT-4는 LogiQA와 ReClor에서 비교적 강한 성능을 보이지만, 더 깊은 추론이 필요한 분포 밖 데이터와 특정 NLI 데이터셋에서는 여전히 어려움을 겪습니다.
- 대화 창 내 맥락 학습은 같은 대화 창에서 GPT-4의 정확도를 높이는 데 도움을 주며, 더 많은 예제가 볼수록(맥락 창) 뚜렷한 이득이 있습니다.
- 제로샷 체인-오브-생각 프롬프팅은 GPT-4에 적용 시 LogiQA 2.0 ood에서 성능이 향상되는 경향을 보이며, 추론 강화 프롬프팅의 가능성을 시사합니다.
- LogiEval은 프롬프트 기반 대형 언어 모델을 평가하기 위한 프롬프트 스타일 벤치마크로 출시되었습니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.