[논문 리뷰] Humans in Humans Out: On GPT Converging Toward Common Sense in both Success and Failure
본 논문은 Erotetic Theory of Reason (ETR)를 사용하여 GPT-3, GPT-3.5, GPT-4를 ETR61 벤치마크의 61개 추론 및 판단 문제에 대해 평가하고, 모델이 커질수록 인간의 상식 패턴(오류 포함)과 더 잘 일치함을 발견하며, ETR에서 영감을 받은 프롬프트가 일부 오류를 줄일 수 있음을 보여준다.
Increase in computational scale and fine-tuning has seen a dramatic improvement in the quality of outputs of large language models (LLMs) like GPT. Given that both GPT-3 and GPT-4 were trained on large quantities of human-generated text, we might ask to what extent their outputs reflect patterns of human thinking, both for correct and incorrect cases. The Erotetic Theory of Reason (ETR) provides a symbolic generative model of both human success and failure in thinking, across propositional, quantified, and probabilistic reasoning, as well as decision-making. We presented GPT-3, GPT-3.5, and GPT-4 with 61 central inference and judgment problems from a recent book-length presentation of ETR, consisting of experimentally verified data-points on human judgment and extrapolated data-points predicted by ETR, with correct inference patterns as well as fallacies and framing effects (the ETR61 benchmark). ETR61 includes classics like Wason's card task, illusory inferences, the decoy effect, and opportunity-cost neglect, among others. GPT-3 showed evidence of ETR-predicted outputs for 59% of these examples, rising to 77% in GPT-3.5 and 75% in GPT-4. Remarkably, the production of human-like fallacious judgments increased from 18% in GPT-3 to 33% in GPT-3.5 and 34% in GPT-4. This suggests that larger and more advanced LLMs may develop a tendency toward more human-like mistakes, as relevant thought patterns are inherent in human-produced training data. According to ETR, the same fundamental patterns are involved both in successful and unsuccessful ordinary reasoning, so that the "bad" cases could paradoxically be learned from the "good" cases. We further present preliminary evidence that ETR-inspired prompt engineering could reduce instances of these mistakes.
연구 동기 및 목표
- 일반 상식 추론 과제를 해결할 때 GPT 모델이 Erotetic Theory of Reason (ETR)에서 예측하는 인간과 유사한 추론 패턴을 보이는지 조사한다.
- ETR61 벤치마크에서 GPT-3, GPT-3.5, GPT-4 간 성능과 오류 경향의 변화가 어떤지 평가한다.
- ETR에서 영감을 받은 프롬프트 설계가 대형 언어 모델의 잘못된 판단을 감소시키는지 테스트한다.
제안 방법
- 명제, 확률 및 의사결정 영역에 걸친 61개의 추론 및 판단 문제로 구성된 ETR61 벤치를 사용한다.
- 생산 및 질의 조건에서 프롬프트를 제시하여 ETR-예측 결론의 정답 여부와 채택 여부를 평가한다.
- 정확성을 기록하고 출력물을 '정확한 생산', '정확한 채택', 둘 다, 또는 착오로 분류한다.
- 세대 간 성능 비교에 Wilcoxon 기호 순위 검정과 같은 통계 검정을 적용한다.
- 생산 대 채택을 비교하고 ETR-예측 상의 일반 상식 판단 및 오류와의 정합성을 살펴본다.
실험 결과
연구 질문
- RQ1GPT-3, GPT-3.5, GPT-4가 일반 상식 추론에 대해 ETR 예측과 일치하는 출력을 생성하는가?
- RQ2ETR61에서 정답성, 채택 여부, 일관성이 GPT 세대 전반에 걸쳐 어떻게 변화하는가?
- RQ3더 큰 모델이 이전 모델에 비해 ETR-예측된 오류를 더 많이 보이는가?
- RQ4간단한 프롬프트 설계가 GPT 모델의 ETR-예측된 오류를 줄일 수 있는가?
주요 결과
- GPT-3.5는 GPT-3 또는 GPT-4보다 정답 수가 적게 나타나고, GPT-4는 정답성 및 일관성이 크게 증가한다.
- GPT-4와 GPT-3.5가 GPT-3보다 ETR-예측된 일반 상식 정답을 더 자주 출력하거나 채택한다.
- 모델 세대에 따라 오류 생성은 증가한다: 생산에서 18%(GPT-3)에서 34%(GPT-4); 오류 채택은 여전히 낮아 18%에서 20%로 증가한다.
- GPT-4는 전반적으로 GPT-3보다 더 오류를 잘 범하며, 채택하는 오류보다 더 많은 오류를 범한다.
- ETR에서 영감을 받은 프롬프트 설계가 오류를 줄이며, GPT-3.5는 비교 프롬프트에 비해 통계적으로 유의한 감소를 보이고, 효과는 모델에 따라 다르다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.