[論文レビュー] Humans in Humans Out: On GPT Converging Toward Common Sense in both Success and Failure
本論文は Erotetic Theory of Reason (ETR) を用いて GPT-3、GPT-3.5、GPT-4 を ETR61 ベンチマークの 61 の推論・判断問題で評価し、より大きいモデルは人間の常識パターン(誤謬を含む)により一致する傾向が強いことを示し、ETR に触発された prompting がいくつかの誤謬を減らすことができることを示す。
Increase in computational scale and fine-tuning has seen a dramatic improvement in the quality of outputs of large language models (LLMs) like GPT. Given that both GPT-3 and GPT-4 were trained on large quantities of human-generated text, we might ask to what extent their outputs reflect patterns of human thinking, both for correct and incorrect cases. The Erotetic Theory of Reason (ETR) provides a symbolic generative model of both human success and failure in thinking, across propositional, quantified, and probabilistic reasoning, as well as decision-making. We presented GPT-3, GPT-3.5, and GPT-4 with 61 central inference and judgment problems from a recent book-length presentation of ETR, consisting of experimentally verified data-points on human judgment and extrapolated data-points predicted by ETR, with correct inference patterns as well as fallacies and framing effects (the ETR61 benchmark). ETR61 includes classics like Wason's card task, illusory inferences, the decoy effect, and opportunity-cost neglect, among others. GPT-3 showed evidence of ETR-predicted outputs for 59% of these examples, rising to 77% in GPT-3.5 and 75% in GPT-4. Remarkably, the production of human-like fallacious judgments increased from 18% in GPT-3 to 33% in GPT-3.5 and 34% in GPT-4. This suggests that larger and more advanced LLMs may develop a tendency toward more human-like mistakes, as relevant thought patterns are inherent in human-produced training data. According to ETR, the same fundamental patterns are involved both in successful and unsuccessful ordinary reasoning, so that the "bad" cases could paradoxically be learned from the "good" cases. We further present preliminary evidence that ETR-inspired prompt engineering could reduce instances of these mistakes.
研究の動機と目的
- GPT-3、GPT-3.5、GPT-4 が common-sense 推論タスクを解く際に Erotetic Theory of Reason (ETR) が予測する人間のような推論パターンを示すかを調査する。
- ETR61 ベンチマークにおける GPT-3、GPT-3.5、GPT-4 の性能と誤謬傾向の変化を評価する。
- ETR に触発されたプロンプト設計が LLM の誤判断を減らせるかを検証する。
提案手法
- propositional, probabilistic, and decision-making domains を横断する 61 問題の ETR61 ベンチマークを使用する。
- production 条件と query 条件の下で GPT-3、GPT-3.5、GPT-4 をプロンプトし、ETR-predicted conclusions の正確性と承認を評価する。
- 正確性を記録し、出力を正しい production、正しい endorsement、両方、または fallacies に分類する。
- クロス世代の performance を比較するために Wilcoxon signed-rank テストを適用する。
- production と endorsement を比較し、ETR-predicted な common-sense judgments と fallacies との整合性を検討する。
実験結果
リサーチクエスチョン
- RQ1GPT-3、GPT-3.5、GPT-4 は common-sense 推論に対する ETR の予測と一致する出力を生み出すか。
- RQ2ETR61 における正確性、承認、一貫性は世代を超えてどのように発展するか。
- RQ3より大きなモデルは以前のモデルと比べて ETR-predicted の誤謬を多く示すか。
- RQ4シンプルなプロンプト設計で GPT モデルの ETR-predicted の誤謬を減らせるか。
主な発見
- GPT-3.5 は正解数が GPT-3 又は GPT-4 より少なく、GPT-4 は正確性と一貫性の顕著な上昇を示す。
- GPT-4 および GPT-3.5 は GPT-3 よりも ETR-predicted の common-sense な回答を出力・承認することが多い。
- 誤謬の生成はモデル世代を跨いで増加する:production で 18%(GPT-3)から 34%(GPT-4)、誤謬の承認は低いまま(18% から 20%)。
- GPT-4 は全体として GPT-3 より誤謬を起こしやすく、また承認する誤謬より多くの誤謬を示す。
- ETR-inspired prompt engineering は誤謬を減らし、GPT-3.5 では対照プロンプトと比較して統計的に有意な削減を示し、効果はモデルによって異なる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。