QUICK REVIEW

[논문 리뷰] Evaluating the Logical Reasoning Ability of ChatGPT and GPT-4

Hanmeng Liu, Ruoxi Ning|arXiv (Cornell University)|2023. 04. 07.

Topic Modeling인용 수 103

한 줄 요약

본 논문은 대중적 및 신규 데이터셋에서 다수의 논리 추론 과제(다지선다 읽기 이해 및 자연어 추론)에 대해 ChatGPT와 GPT-4를 벤치마킹하고, LogiEval을 도입하며, 특히 분포 밖(out-of-distribution) 데이터에서의 성능 격차를 분석합니다.

ABSTRACT

Harnessing logical reasoning ability is a comprehensive natural language understanding endeavor. With the release of Generative Pretrained Transformer 4 (GPT-4), highlighted as "advanced" at reasoning tasks, we are eager to learn the GPT-4 performance on various logical reasoning tasks. This report analyses multiple logical reasoning datasets, with popular benchmarks like LogiQA and ReClor, and newly-released datasets like AR-LSAT. We test the multi-choice reading comprehension and natural language inference tasks with benchmarks requiring logical reasoning. We further construct a logical reasoning out-of-distribution dataset to investigate the robustness of ChatGPT and GPT-4. We also make a performance comparison between ChatGPT and GPT-4. Experiment results show that ChatGPT performs significantly better than the RoBERTa fine-tuning method on most logical reasoning benchmarks. With early access to the GPT-4 API we are able to conduct intense experiments on the GPT-4 model. The results show GPT-4 yields even higher performance on most logical reasoning datasets. Among benchmarks, ChatGPT and GPT-4 do relatively well on well-known datasets like LogiQA and ReClor. However, the performance drops significantly when handling newly released and out-of-distribution datasets. Logical reasoning remains challenging for ChatGPT and GPT-4, especially on out-of-distribution and natural language inference datasets. We release the prompt-style logical reasoning datasets as a benchmark suite and name it LogiEval.

연구 동기 및 목표

다양한 데이터셋에서 논리 추론 능력을 평가한다.
다지선다 읽기 이해 및 NLI 과제에서 RoBERTa 미세조정 베이스라인과의 성능을 비교한다.
분포 밖 데이터에 대한 강건성과 추론에 대한 프롬프트 설계 및 맥락의 영향을 조사한다.
프롬프트 스타일 벤치마크로서 LogiEval을 도입하고 대형 언어 모델 평가를 촉진한다.

제안 방법

두 가지 과제 유형에 대해 평가한다: 다지선다 읽기 이해와 자연어 추론(NLI).
RoBERTa-base를 미세조정 베이스라인으로 사용하고, ChatGPT와 GPT-4의 API/UI 출력과 비교한다.
ChatGPT와 GPT-4에 대해 지시-프롬프트 구성을 적용하고, NLI에는 라벨 기반 프롬프트를, MC 읽기 이해에는 명시적 과제 형식을 사용한다.
대화 창 안팎의 맥락 예시로 성능 향상을 평가하기 위한 GPT-4의 맥락 학습 실험.
추론 성능에 대한 영향을 평가하기 위한 제로샷 체인-오브-생각(Chain-of-Thought) 프롬프팅을 탐구한다.

실험 결과

연구 질문

RQ1ChatGPT와 GPT-4가 기존의 논리 추론 벤치마크(LogiQA, ReClor) 및 신규 데이터셋(AR-LSAT)에서 어떤 성능을 보이는가?
RQ2이 모델들이 분포 밖 데이터에서도 견고한 논리 추론을 보이는가, 그리고 RoBERTa 베이스라인과의 비교는 어떠한가?
RQ3프롬프트 설계, 지시, 맥락이 ChatGPT와 GPT-4의 추론 성능에 어떤 영향을 미치는가?
RQ4체인-오브-생각 프롬프팅이나 대화 내 맥락이 GPT-4의 논리 추론을 실제로 개선할 수 있는가?

주요 결과

Dataset	RoBERTa	ChatGPT (API)	GPT-4 (Chat UI)	GPT-4 (API)
LogiQA 2.0 test	48.76	52.37	75.26 (73/97)	72.25
LogiQA 2.0 zh test	35.64	53.18	51.76 (44/85)	70.56
ReClor dev	55.01	57.38	92.00 (92/100)	87.20
AR-LSAT test	23.14	20.42	18.27 (19/104)	33.48
LogiQA 2.0 ood	33.22	38.44	48.21 (54/112)	58.49
Notes	-	-	-	-

ChatGPT는 많은 잘 알려진 논리 추론 벤치마크에서 RoBERTa 베이스라인보다 우수한 성능을 보이지만, 분포 밖 데이터(예: AR-LSAT, LogiQA 2.0 ood)에서 감소합니다.
GPT-4는 대체로 대부분의 데이터셋에서 ChatGPT보다 더 높은 정확도를 달성하지만, 분포 밖 데이터 및 일부 NLI 과제에서 큰 하락을 보이기도 합니다.
ChatGPT와 GPT-4는 LogiQA와 ReClor에서 비교적 강한 성능을 보이지만, 더 깊은 추론이 필요한 분포 밖 데이터와 특정 NLI 데이터셋에서는 여전히 어려움을 겪습니다.
대화 창 내 맥락 학습은 같은 대화 창에서 GPT-4의 정확도를 높이는 데 도움을 주며, 더 많은 예제가 볼수록(맥락 창) 뚜렷한 이득이 있습니다.
제로샷 체인-오브-생각 프롬프팅은 GPT-4에 적용 시 LogiQA 2.0 ood에서 성능이 향상되는 경향을 보이며, 추론 강화 프롬프팅의 가능성을 시사합니다.
LogiEval은 프롬프트 기반 대형 언어 모델을 평가하기 위한 프롬프트 스타일 벤치마크로 출시되었습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.