[論文レビュー] TravelPlanner: A Benchmark for Real-World Planning with Language Agents
TravelPlanner は、言語エージェントのツール使用とマルチ制約計画を検証するための実世界の旅行計画ベンチマークを、1,225 の注釈付きクエリと 4-million-entry のサンドボックスで導入しています。複雑なタスクで現在の LLM は最終合格率がわずか 0.6% にとどまっています。
Planning has been part of the core pursuit for artificial intelligence since its conception, but earlier AI agents mostly focused on constrained settings because many of the cognitive substrates necessary for human-level planning have been lacking. Recently, language agents powered by large language models (LLMs) have shown interesting capabilities such as tool use and reasoning. Are these language agents capable of planning in more complex settings that are out of the reach of prior AI agents? To advance this investigation, we propose TravelPlanner, a new planning benchmark that focuses on travel planning, a common real-world planning scenario. It provides a rich sandbox environment, various tools for accessing nearly four million data records, and 1,225 meticulously curated planning intents and reference plans. Comprehensive evaluations show that the current language agents are not yet capable of handling such complex planning tasks-even GPT-4 only achieves a success rate of 0.6%. Language agents struggle to stay on task, use the right tools to collect information, or keep track of multiple constraints. However, we note that the mere possibility for language agents to tackle such a complex problem is in itself non-trivial progress. TravelPlanner provides a challenging yet meaningful testbed for future language agents.
研究の動機と目的
- LLMs によって動作する言語エージェントが、現実的なサンドボックスで複雑でマルチ制約を伴う旅行計画を実行できるかを評価する。
- 環境、常識、ハード制約の下でのツール使用と計画戦略の有効性を評価する。
- 長期的な計画タスクにおける現在の言語エージェントの共通の失敗モードを特定する。
- 人間レベルの計画へ向けたより能力の高い言語エージェントの開発を促進する、挑戦的なテストベッドを提供する。
提案手法
- 6 つのデータツールと約 4 百万件の旅行データ記録を備える静的サンドボックス環境を作成する。
- 期間とハード制約の異なる 1,225 の多様なクエリと参照計画を設計する。
- 全クエリに対して人間が実行可能な参照計画を注釈付きで用意し、少なくとも1つの実行可能解を保証する。
- マイクロおよびマクロ指標を用いて、デリバリ率、常識的制約パス率、ハード制約パス率、最終パス率の下でエージェントを評価する。
- 複数の LLM(GPT-4-Turbo、Gemini Pro、Mixtral など)と計画戦略(Direct、CoT、ReAct、Reflexion)を、2 段階モードと単独計画モードで比較する。
- ツール使用エラー、デッドループ、幻像を含む失敗モードを分析し、計画のギャップを理解する。
実験結果
リサーチクエスチョン
- RQ1最先端の言語エージェントは、情報収集ツール群を使用して実現可能なマルチ制約旅行計画を生成できるか。
- RQ2ReAct や Reflexion のような計画戦略は、複数の制約を含む複雑な実世界の計画タスクでどのように機能するか。
- RQ3TravelPlanner において、エージェントの性能を妨げる支配的な失敗モード(ツール使用エラー、デッドループ、幻像)は何か。
- RQ4二段階(情報収集+計画)と単独計画モードの間で、エージェントの性能差はどうなるか。
- RQ5この複雑なタスクにおけるマイクロ制約パス率とマクロ制約パス率のギャップはどの程度か。
主な発見
- GPT-4-Turbo with ReAct は、二段階モードでのテストセットの最終パス率を 0.6% に達成する。
- 他の多くの LLM は TravelPlanner のいずれのタスクも完了できない。
- 二段階の計画は、全指標で単独計画よりパフォーマンスが低く、差は最大で 30% 超に達する。
- エージェントは硬い制約を満たすことと、複数の制約を総合的に考慮することが難しく、マクロパス率が低い。
- 一般的な失敗モードには、ツール使用の引数エラー、デッドループ、幻像が含まれ、より高度な計画戦略とツール推論の必要性を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。