[論文レビュー] Large Language Models Cannot Self-Correct Reasoning Yet
本論文は、内在的自己訂正(外部フィードバックなしの自己訂正)はLLMの推論を信頼性高く改善しないと主張する。実際には性能が低下することが多く、外部フィードバックやツールが役立つ場合があり、マルチエージェント対話は真の自己訂正というより自己整合性と大筋で同等である。
Large Language Models (LLMs) have emerged as a groundbreaking technology with their unparalleled text generation capabilities across various applications. Nevertheless, concerns persist regarding the accuracy and appropriateness of their generated content. A contemporary methodology, self-correction, has been proposed as a remedy to these issues. Building upon this premise, this paper critically examines the role and efficacy of self-correction within LLMs, shedding light on its true potential and limitations. Central to our investigation is the notion of intrinsic self-correction, whereby an LLM attempts to correct its initial responses based solely on its inherent capabilities, without the crutch of external feedback. In the context of reasoning, our research indicates that LLMs struggle to self-correct their responses without external feedback, and at times, their performance even degrades after self-correction. Drawing from these insights, we offer suggestions for future research and practical applications in this field.
研究の動機と目的
- 外部フィードバックなしでLLMが推論を自己訂正できるか(内在的自己訂正)。
- オラクルのフィードバックを用いて訂正を導く自己訂正手法を評価する。
- マルチエージェント対話または自己整合性が真の推論改善を生むかを検討する。
- 自己訂正が有益になる条件、特に事後 prompting と事前 prompting の比較について調査する。
提案手法
- GSM8K、CommonSenseQA、HotpotQA に対して GPT-3.5-Turbo および GPT-4 を用い、3段階自己訂正プロンプト(初回回答 → フィードバック → 修正回答)を再現する。
- 外部フィードバックを排除して内在的自己訂正を試し、2回の自己訂正ラウンドを評価する。
- オラクル指示付き自己訂正およびランダムベースラインと比較し、真の訂正とラベル駆動の改善を分離する。
- GSM8K の prior work のプロンプトを用いたマルチエージェント対話と自己整合性を調査する。
- 事後プロンプティングとして制約付き生成を分析し、強力な事前プロンプトベースラインと比較する。

実験結果
リサーチクエスチョン
- RQ1外部フィードバックなしでLLMは推論を自己訂正できるか(内在的自己訂正)?
- RQ2オラクル指導または外部フィードバックを用いる自己訂正手法は、推論タスクにおいて内在的自己訂正を上回るか?
- RQ3マルチエージェント対話は自己整合性より推論改善に有効か?
- RQ4自己訂正が有益になる条件は何か、事後プロンプティングと事前プロンプティングの比較はどうか?
主な発見
| データセット | GPT-3.5 標準プロンプティング | 自己訂正(オラクル) | GPT-4 標準プロンプティング | 自己訂正(オラクル) |
|---|---|---|---|---|
| GSM8K | 75.9 | 84.3 | 95.5 | 97.5 |
| CommonSenseQA | 75.8 | 89.7 | 82.0 | 85.5 |
| HotpotQA | 26.0 | 29.0 | 49.0 | 59.0 |
- 内在的自己訂正は、GSM8K、CommonSenseQA、HotpotQA のすべてにおいて GPT-3.5 および GPT-4 で一貫して性能を低下させる。
- オラクルラベルを用いた自己訂正は精度を高めるが、現実のタスクでは入手できない真実のフィードバックに依存する。
- マルチエージェント対話と自己整合性は標準プロンプティングより性能を向上させるが、同等の応答数を使用した場合、マルチエージェント対話は自己整合性を上回らない。
- 自己訂正は安全性や文体の整合性を合わせる際には有利な場合があるが、外部フィードバックなしの推論タスクにはほとんど有益ではない。
- 事後プロンプトは自己訂正のために用いるとき、時には単純でよく設計された事前プロンプトより劣ることがあり、追加の推論コストは正当化されないことがある。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。