[論文レビュー] AdaPlanner: Adaptive Planning from Feedback with Language Models
AdaPlannerは、LLMが計画者と改良者として機能する明示的な閉ループ計画フレームワークを導入し、コードベースのプロンプトとスキル発見を用いた計画内/計画外の改良により、サンプル効率と適応性をALFWorldとMiniWoB++の両方で向上させる。
Large language models (LLMs) have recently demonstrated the potential in acting as autonomous agents for sequential decision-making tasks. However, most existing methods either take actions greedily without planning or rely on static plans that are not adaptable to environmental feedback. Consequently, the sequential decision-making performance of LLM agents degenerates with problem complexity and plan horizons increase. We propose a closed-loop approach, AdaPlanner, which allows the LLM agent to refine its self-generated plan adaptively in response to environmental feedback. In AdaPlanner, the LLM agent adaptively refines its plan from feedback with both in-plan and out-of-plan refinement strategies. To mitigate hallucination, we develop a code-style LLM prompt structure that facilitates plan generation across a variety of tasks, environments, and agent capabilities. Furthermore, we propose a skill discovery mechanism that leverages successful plans as few-shot exemplars, enabling the agent to plan and refine with fewer task demonstrations. Our experiments in the ALFWorld and MiniWoB++ environments demonstrate that AdaPlanner outperforms state-of-the-art baselines by 3.73% and 4.11% while utilizing 2x and 600x fewer samples, respectively.
研究の動機と目的
- テキストベース環境におけるオープンループおよび固定計画の閉ループLLMエージェントの制限に対処する。
- 計画と改良の両方をLLMが実行する明示的な閉ループフレームワークを開発する。
- 幻覚をコード風の prompting で軽減し、スキル発見を通じてサンプル効率を高める。
- in-plan querying (ask_LLM) とout-of-planの計画改訂 (refine-then-resume) による迅速な計画改良を提供する。
- 削減されたデモンストレーションでALFWorldとMiniWoB++における最先端の性能を実証する。
提案手法
- タスクをサブゴールに分解し、改良された計画からのブレークポイント駆動再開を可能にするためのPython的コードプロンプトによる計画生成。
- 明示的な閉ループ改良: in-plan (ask_LLM) で観察から有用な情報を抽出して将来の行動を更新し、予測が失敗した場合にout-of-planで計画全体を置換する。
- 成功した計画を保存するスキルメモリを用い、それらを少数ショットの事例として計画効率を向上させる。
- 観察時点Nで評価する環境相互作用戦略。差異が生じた場合にのみ改良を引き起こし、API呼び出しを削減する。
- コードインタフェースは自然言語プロンプトに比べてLLMの幻覚を大幅に低減することが示されている。
- オープンループ、暗黙的閉ループ、明示的閉ループ計画システムを区別する形式的な扱いがあり、AdaPlannerは明示的閉ループとして分類される。
実験結果
リサーチクエスチョン
- RQ1再トレーニングなしで環境からのフィードバックを用いてLLMベースのエージェントがリアルタイムに計画を適応させるにはどうすればよいか?
- RQ2コードベースの prompting アプローチは幻覚を減らし、LLMエージェントの計画信頼性を向上させるか?
- RQ3成功した計画からのスキル発見は長期的な計画の効率とサンプル効率を高められるか?
- RQ4明示的な計画改良(in-plan および out-of-plan)がALFWorldとMiniWoB++全体のタスク成功とサンプル効率に与える影響はどの程度か?
- RQ5異なるサンプルレジーム下でAdaPlannerは最先端のベースラインとどう比較されるか?
主な発見
| 方法 | 選択 | 清浄 | 熱 | 冷却 | 検査 | 2つ選択 | 全て(134タスク) |
|---|---|---|---|---|---|---|---|
| BUTLER | 46.00 | 39.00 | 74.00 | 100.00 | 22.00 | 24.00 | 37.00 |
| ReAct (GPT-3) | 66.67 | 41.94 | 91.03 | 80.95 | 55.56 | 35.29 | 61.94 |
| ReAct (GPT-3.5) | 37.50 | 64.52 | 69.57 | 42.86 | 38.89 | 17.65 | 47.76 |
| Reflexion (GPT-3) | 75.00 | 90.32 | 91.30 | 90.48 | 88.89 | 94.12 | 88.06 |
| Reflexion (GPT-3.5) | 50.00 | 41.94 | 65.22 | 52.38 | 66.67 | 47.06 | 52.99 |
| AdaPlanner (GPT-3) | 100.00 | 96.77 | 95.65 | 100.00 | 100.00 | 47.06 | 91.79 |
| AdaPlanner (GPT-3.5) | 77.78 | 93.55 | 69.57 | 93.65 | 62.96 | 78.43 | 80.60 |
- AdaPlannerは最先端の成功を達成: ALFWorldで91.79%、MiniWoB++で91.11%のフィードバックあり。
- AdaPlannerはALFWorldでサンプルを2倍削減、MiniWoB++では600倍削減している。
- コードベースの prompting は幻覚を実質的に低減し、自然言語プロンプトと比較して性能を向上させる。
- スキル発見は両方の環境でサンプル効率とタスク成功を大幅に改善する。
- 明示的閉ループ計画改良は実験を通じて一貫して暗黙的または固定計画法を上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。