[論文レビュー] Multi-Step Reasoning with Large Language Models, a Survey
この調査は大規模言語モデルにおけるプロンプトベースの多段階推論をレビューし、三段階の分類法(生成、評価、制御)を提案し、ベンチマークと将来の研究方向を要約します。
Large language models (LLMs) with billions of parameters exhibit in-context learning abilities, enabling few-shot learning on tasks that the model was not specifically trained for. Traditional models achieve breakthrough performance on language tasks, but do not perform well on basic reasoning benchmarks. However, a new in-context learning approach, Chain-of-thought, has demonstrated strong multi-step reasoning abilities on these benchmarks. The research on LLM reasoning abilities started with the question whether LLMs can solve grade school math word problems, and has expanded to other tasks in the past few years. This article reviews the field of multi-step reasoning with LLMs. We propose a taxonomy that identifies different ways to generate, evaluate, and control multi-step reasoning. We provide an in-depth coverage of core approaches and open problems, and we propose a research agenda for the near future. We find that multi-step reasoning approaches have progressed beyond math word problems, and can now successfully solve challenges in logic, combinatorial games, and robotics, sometimes by first generating code that is then executed by external tools. Many studies in multi-step methods use reinforcement learning for finetuning, external optimization loops, in-context reinforcement learning, and self-reflection.
研究の動機と目的
- 「プロンプトベースの手法が大規模言語モデル(LLMs)における多段階推論をどう可能にするか」を評価する。
- 「プロンプト内の推論ステップの生成、評価、制御の分類法を提供する。」
- 「ベンチマークの進捗を要約し、未解決問題と研究計画を特定する。」
提案手法
- 「三段階の推論パイプラインを定義する:ステップを生成し、ステップを評価し、推論プロセスを制御する。
- 「ステップ生成のアプローチを、手書き、外部知識、モデル生成のプロンプトに分類する。
- 「自己評価、ツールベースの検証、外部の批評家を含む評価戦略を調査する。
- 「欲張り推論からアンサンブル、探索ベースの方法(例:BFS/DFS、RL)へ制御戦略をマッピングする。
- 「数学の文章題を超えるドメイン応用(コーディング、自律エージェント)をレビューし、グラウンディングについて議論する。)

実験結果
リサーチクエスチョン
- RQ1「どのようなプロンプトベースの手法が、ドメインを超えてLLMにおける効果的な多段階推論を可能にするか?」
- RQ2「推論ステップの生成、評価、制御をどのように整理して性能と堅牢性を向上させるか?」
- RQ3「現行の推論アプローチの強みと制約を明らかにするベンチマーク(例:GSM8K および関連データセット)は何か?」
主な発見
- 思考過程プロンプトは、直接回答と比べて数学の文章問題(例:GSM8K)で顕著な性能向上をもたらす。
- “Let’s think step by step” のようなゼロショット・プロンプトは、四則演算、記号、論理タスク全般の推論を改善する。
- ベンチマークは難易度に大きな差を示し、現在のアプローチはデータセット(GSM8K、ASDiv、MAWPS、SVAMP、AQuA)ごとに異なる性能を示す。
- 自動生成プロンプトは、いくつかのベンチマークで手書きプロンプトと同等かそれを上回ることがある。
- 自己検証、過半数投票、ツールベースの評価、BFS/DFS、RL などの多様な推論制御戦略は誤りの蓄積を緩和するのに役立つ。
- 推論研究は自己反省、メタ認知、人工汎用知能への道と結びつく。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。