[論文レビュー] Evaluating the Logical Reasoning Ability of ChatGPT and GPT-4
この論文は、複数の論理推論タスク(多肢選択読解と自然言語推論)において、ChatGPTとGPT-4を比較検証し、人気データセットと新規データセットを横断して評価します。LogiEvalを導入し、特に分布外データでの性能ギャップを分析します。
Harnessing logical reasoning ability is a comprehensive natural language understanding endeavor. With the release of Generative Pretrained Transformer 4 (GPT-4), highlighted as "advanced" at reasoning tasks, we are eager to learn the GPT-4 performance on various logical reasoning tasks. This report analyses multiple logical reasoning datasets, with popular benchmarks like LogiQA and ReClor, and newly-released datasets like AR-LSAT. We test the multi-choice reading comprehension and natural language inference tasks with benchmarks requiring logical reasoning. We further construct a logical reasoning out-of-distribution dataset to investigate the robustness of ChatGPT and GPT-4. We also make a performance comparison between ChatGPT and GPT-4. Experiment results show that ChatGPT performs significantly better than the RoBERTa fine-tuning method on most logical reasoning benchmarks. With early access to the GPT-4 API we are able to conduct intense experiments on the GPT-4 model. The results show GPT-4 yields even higher performance on most logical reasoning datasets. Among benchmarks, ChatGPT and GPT-4 do relatively well on well-known datasets like LogiQA and ReClor. However, the performance drops significantly when handling newly released and out-of-distribution datasets. Logical reasoning remains challenging for ChatGPT and GPT-4, especially on out-of-distribution and natural language inference datasets. We release the prompt-style logical reasoning datasets as a benchmark suite and name it LogiEval.
研究の動機と目的
- さまざまなデータセットを横断して、論理推論能力を評価する。
- 多肢選択読解とNLIタスクでRoBERTaのファインチューニングベースラインと比較する。
- 分布外データに対する頑健性と、推論に対するプロンプト設計とコンテキストの影響を調査する。
- LogiEvalを大規模言語モデルを評価するプロンプト型ベンチマークとして紹介・普及させる。
提案手法
- 2つのタスクタイプ(多肢選択読解と自然言語推論(NLI))を評価する。
- RoBERTa-baseをファインチューニングベースラインとして使用し、ChatGPTとGPT-4のAPI/UI出力と比較する。
- ChatGPTとGPT-4に対して指示プロンプト方式を適用し、NLIにはラベル型プロンプト、MC読解には明示的なタスク形式を採用する。
- GPT-4を用いたインコンテキスト学習実験で、対話ウィンドウ内外での文脈例示からの改善を評価する。
- 推論性能に対する影響を評価するため、ゼロショット連鎖思考プロンプトを検討する。
実験結果
リサーチクエスチョン
- RQ1ChatGPTとGPT-4は、確立された論理推論ベンチマーク(LogiQA、ReClor)と新規データセット(AR-LSAT)でどのように性能を発揮するか。
- RQ2分布外データでの頑健な論理推論を示すか、RoBERTaのベースラインとどのように比較されるか。
- RQ3プロンプト設計、指示、インコンテキスト環境がChatGPTとGPT-4の推論性能に与える影響は。
- RQ4連鎖思考プロンプトや対話内文脈は、実務でGPT-4の論理推論を改善できるか。
主な発見
| データセット | RoBERTa | ChatGPT (API) | GPT-4 (Chat UI) | GPT-4 (API) |
|---|---|---|---|---|
| LogiQA 2.0 test | 48.76 | 52.37 | 75.26 (73/97) | 72.25 |
| LogiQA 2.0 zh test | 35.64 | 53.18 | 51.76 (44/85) | 70.56 |
| ReClor dev | 55.01 | 57.38 | 92.00 (92/100) | 87.20 |
| AR-LSAT test | 23.14 | 20.42 | 18.27 (19/104) | 33.48 |
| LogiQA 2.0 ood | 33.22 | 38.44 | 48.21 (54/112) | 58.49 |
| Notes | - | - | - | - |
- ChatGPTは多くの有名な論理推論ベンチマークでRoBERTaベースラインを上回るが、分布外データ(例:AR-LSAT、LogiQA 2.0 ood)では低下する。
- GPT-4は大半のデータセットでChatGPTより高い正答率を示すが、分布外データと一部のNLIタスクで大幅な低下もみられる。
- ChatGPTとGPT-4はLogiQAとReClorで比較的高い性能を示す一方、分布外データや深い推論を要する特定のNLIデータセットでは依然として課題がある。
- インコンテキスト学習は同一の対話ウィンドウ内でGPT-4の正確さを向上させ、見た例が多いほど顕著な例を示す。
- ゼロショット連鎖思考プロ prompting は、GPT-4に適用するとLogiQA 2.0 oodで改善をもたらす可能性を示し、推論強化型プロンプティングの可能性を示唆する。
- LogiEvalは、プロンプト型大規模言語モデルを評価するプロンプトスタイルのベンチマークとして公開される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。