[論文レビュー] Reasoning with Language Model is Planning with World Model
RAP は内部世界モデルとモンテカルロ木探索計画を通じて LLM が推論できるようにし、標準のチェインオブソート prompts を超えて計画生成、数学的推論、論理推論を改善します。
Large language models (LLMs) have shown remarkable reasoning capabilities, especially when prompted to generate intermediate reasoning steps (e.g., Chain-of-Thought, CoT). However, LLMs can still struggle with problems that are easy for humans, such as generating action plans for executing tasks in a given environment, or performing complex math, logical, and commonsense reasoning. The deficiency stems from the key fact that LLMs lack an internal $ extit{world model}$ to predict the world $ extit{state}$ (e.g., environment status, intermediate variable values) and simulate long-term outcomes of actions. This prevents LLMs from performing deliberate planning akin to human brains, which involves exploring alternative reasoning paths, anticipating future states and rewards, and iteratively refining existing reasoning steps. To overcome the limitations, we propose a new LLM reasoning framework, $\underline{R}$easoning vi$\underline{a}$ $\underline{P}$lanning $ extbf{(RAP)}$. RAP repurposes the LLM as both a world model and a reasoning agent, and incorporates a principled planning algorithm (based on Monto Carlo Tree Search) for strategic exploration in the vast reasoning space. During reasoning, the LLM (as agent) incrementally builds a reasoning tree under the guidance of the LLM (as world model) and task-specific rewards, and obtains a high-reward reasoning path efficiently with a proper balance between exploration $ extit{vs.}$ exploitation. We apply RAP to a variety of challenging reasoning problems including plan generation, math reasoning, and logical inference. Empirical results on these tasks demonstrate the superiority of RAP over various strong baselines, including CoT and least-to-most prompting with self-consistency. RAP on LLAMA-33B surpasses CoT on GPT-4 with 33% relative improvement in a plan generation setting.
研究の動機と目的
- LLMs が計画と長期的推論のための内部世界モデルを欠いているというギャップを動機づけ、解決する。
- LLMs を世界モデルと推論エージェントとして再利用する枠組み(RAP)を提案する。
- RAP が計画生成、数学的推論、論理推論の各領域で有効性を示す。
- 学習された報酬に導かれた MCTS による計画が高品質な推論トレースを生み出すことを示す。
提案手法
- 各推論タスクの状態と行動を定義し、プロンプトを介して LLM を用いて世界モデルを具現化する。
- 推論ステップの報酬を導入し、行動の確率、状態の信頼度、自己評価、タスク固有のヒューリスティクスを含める。
- UCTベースの選択、展開、シミュレーション、バックプロパゲーションを用いて推論トレースを構築・評価するためにモンテカルロ木探索を適用する。
- 適切な場合、複数の推論トレースをアンサンブルして最終回答を得るための RAP アグリゲーション(RAP-Aggregation)を許可する。
- 世界モデルおよびエージェントとしての LLM が探索と活用のバランスを取り、高報酬の推論経路を見つけ出せることを示す。
実験結果
リサーチクエスチョン
- RQ1LLM に埋め込まれた内部世界モデルは、領域を超えた計画的推論を改善できるか?
- RQ2LLM由来の報酬によって導かれる MCTS を用いた計画は、標準の CoT プロンプトより高品質な推論トレースを生み出すか?
- RQ3強力なベースラインと比較して、RAP は計画生成、数学的推論、論理推論の各領域でどのように性能を示すか?
- RQ4特定の設定で RAP は強力なモデル(例:CoT 搭載の GPT-4)を上回るか、少なくとも同等に扱えるか?
主な発見
- RAP は 2/4/6ステップの Blocksworld 計画生成で平均 64% の成功率を達成し、CoT を大幅に上回る。
- RAP を用いた LLaMA-33B は、計画生成で CoT を用いた GPT-4 を相対的に 33% 上回る。
- RAP は GSM8K の数学的推論精度を Chain-of-Thought および Least-to-Most プロンプトに対して Self-Consistency を用いた推論より改善し、約 48.8% の精度に達し(アグリゲーションで 51.6% に改善)。
- PrOntoQA の論理推論では、RAP は 94.2% の予測精度と 78.8% の証明精度を示し、CoT のベースラインを上回る。
- RAP は Llama-2 70B でのフル Blocksworld に対して堅牢性を示し、CoT が低下する難易度の高い 6+ ステップケースでも高い能力を維持する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。