[論文レビュー] Why Do LLM-based Web Agents Fail? A Hierarchical Planning Perspective
この論文は、LLM ベースのウェブエージェントを高レベルの計画、低レベルの実行、リプランニングの三層で診断する階層的計画フレームワークを導入し、構造化されたPDDLプランがアラインメントを改善すること、ただし grounding/実行が依然として主なボトルネックであることを示している。
Large language model (LLM) web agents are increasingly used for web navigation but remain far from human reliability on realistic, long-horizon tasks. Existing evaluations focus primarily on end-to-end success, offering limited insight into where failures arise. We propose a hierarchical planning framework to analyze web agents across three layers (i.e., high-level planning, low-level execution, and replanning), enabling process-based evaluation of reasoning, grounding, and recovery. Our experiments show that structured Planning Domain Definition Language (PDDL) plans produce more concise and goal-directed strategies than natural language (NL) plans, but low-level execution remains the dominant bottleneck. These results indicate that improving perceptual grounding and adaptive control, not only high-level reasoning, is critical for achieving human-level reliability. This hierarchical perspective provides a principled foundation for diagnosing and advancing LLM web agents.
研究の動機と目的
- LLM ウェブエージェントのエンド・ツー・エンドの成功指標を超えた細粒分析を動機づける。
- 評価のための三層階層フレームワーク(高レベル計画、低レベル実行、リプランニング)を提案する。
- Mind2Web-Live を人間と同調した高レベル計画で拡張し、構造化分析を可能にする。
- 複数の LLM にわたる高レベル計画の表現として自然言語(NL)と PDDL を比較する。
- grounding と制御の改善を導くために、失敗がどこから生じるかを特定する。
提案手法
- LLM ウェブエージェントの階層的計画ベースの評価フレームワークを導入。 高レベル計画を NL または PDDL で grounding し、人手によるサブゴールとの整合性を評価。 サブゴール完了を検証する postcondition チェッカー(LLM が判定者)を使用。 ライブウェブタスクを用いて、3 つの層—高レベル計画、低レベル実行、リプランニング—を分析。 3 つのアクション表現を比較:Expanded、Action Object、Action ID。 Mind2Web-Live のタスクで 3 モデル(gpt-5-nano、claude-haiku-4.5、gemini-flash-2.5)を評価。

実験結果
リサーチクエスチョン
- RQ1RQ1: LLM は人間作成のサブゴールと整合する高レベル計画を生成するか?
- RQ2RQ2: 構造化表現(例:PDDL)は NL より人間の計画との整合性を改善するか?
- RQ3RQ3: NL と PDDL によって生成された高レベルゴールはどれだけ実行可能か?
- RQ4RQ4: 正確な高レベル計画があれば、LLM は低レベルアクションをどの程度信頼して実行できるか?
- RQ5RQ5: 低レベル実行の主な失敗モードは何か?
- RQ6RQ6: 初期計画が部分的または不正確な場合、リプランニングは人間の目標との整合性を改善するか?
- RQ7RQ7: リプランニング後、エージェントは高レベル計画を効果的に修正できるか?
主な発見
- LLM が生成する高レベル計画は人間のサブゴールと部分的に整合する;NL の計画はステップの 60.6%、PDDL の計画は 67.7% に整合。
- 構造化されたPDDL計画はより簡潔で、目標指向の高レベル計画を生み出し、整合率が高く(84.6% 対 70.6%)、欠落・分解・不整合のステップが低い。
- 低レベル実行が主要なボトルネックであり、正確な高レベル計画があっても、NL を実行者とした場合の計画完遂は 38.5%、最終成功は 36.4%。
- 探索後のリプランニングはサブゴール完了と全体タスク成功を改善する。NL の計画はリプランニング後の整合性が一部低下するが、サブゴール完了は高い。PDDL はリプランニング後の整合性がより安定。
- gpt-5-nano は計画/実行タスク全般で claude-haiku-4.5 や gemini-flash-2.5 より優れている。gemini-flash-2.5 はコンパクトな計画を生成するが実行が弱く、claude-haiku-4.5 は幻のリンクが少ないが繰り返しが多い。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。