Skip to main content
QUICK REVIEW

[論文レビュー] Why Do LLM-based Web Agents Fail? A Hierarchical Planning Perspective

Mohamed Aghzal, G. Stein|arXiv (Cornell University)|Mar 15, 2026
Speech and dialogue systems被引用数 0
ひとこと要約

この論文は、LLM ベースのウェブエージェントを高レベルの計画、低レベルの実行、リプランニングの三層で診断する階層的計画フレームワークを導入し、構造化されたPDDLプランがアラインメントを改善すること、ただし grounding/実行が依然として主なボトルネックであることを示している。

ABSTRACT

Large language model (LLM) web agents are increasingly used for web navigation but remain far from human reliability on realistic, long-horizon tasks. Existing evaluations focus primarily on end-to-end success, offering limited insight into where failures arise. We propose a hierarchical planning framework to analyze web agents across three layers (i.e., high-level planning, low-level execution, and replanning), enabling process-based evaluation of reasoning, grounding, and recovery. Our experiments show that structured Planning Domain Definition Language (PDDL) plans produce more concise and goal-directed strategies than natural language (NL) plans, but low-level execution remains the dominant bottleneck. These results indicate that improving perceptual grounding and adaptive control, not only high-level reasoning, is critical for achieving human-level reliability. This hierarchical perspective provides a principled foundation for diagnosing and advancing LLM web agents.

研究の動機と目的

  • LLM ウェブエージェントのエンド・ツー・エンドの成功指標を超えた細粒分析を動機づける。
  • 評価のための三層階層フレームワーク(高レベル計画、低レベル実行、リプランニング)を提案する。
  • Mind2Web-Live を人間と同調した高レベル計画で拡張し、構造化分析を可能にする。
  • 複数の LLM にわたる高レベル計画の表現として自然言語(NL)と PDDL を比較する。
  • grounding と制御の改善を導くために、失敗がどこから生じるかを特定する。

提案手法

  • LLM ウェブエージェントの階層的計画ベースの評価フレームワークを導入。 高レベル計画を NL または PDDL で grounding し、人手によるサブゴールとの整合性を評価。 サブゴール完了を検証する postcondition チェッカー(LLM が判定者)を使用。 ライブウェブタスクを用いて、3 つの層—高レベル計画、低レベル実行、リプランニング—を分析。 3 つのアクション表現を比較:Expanded、Action Object、Action ID。 Mind2Web-Live のタスクで 3 モデル(gpt-5-nano、claude-haiku-4.5、gemini-flash-2.5)を評価。
Figure 1: Overview of the hierarchical planning evaluation framework we propose. The pipeline consists of 3 stages: 1) High-level Planning: The LLM proposes high-level subgoals, 2) Low-level Execution: each high-level subgoal is translated into a set of low-level actions, a postcondition checker ver
Figure 1: Overview of the hierarchical planning evaluation framework we propose. The pipeline consists of 3 stages: 1) High-level Planning: The LLM proposes high-level subgoals, 2) Low-level Execution: each high-level subgoal is translated into a set of low-level actions, a postcondition checker ver

実験結果

リサーチクエスチョン

  • RQ1RQ1: LLM は人間作成のサブゴールと整合する高レベル計画を生成するか?
  • RQ2RQ2: 構造化表現(例:PDDL)は NL より人間の計画との整合性を改善するか?
  • RQ3RQ3: NL と PDDL によって生成された高レベルゴールはどれだけ実行可能か?
  • RQ4RQ4: 正確な高レベル計画があれば、LLM は低レベルアクションをどの程度信頼して実行できるか?
  • RQ5RQ5: 低レベル実行の主な失敗モードは何か?
  • RQ6RQ6: 初期計画が部分的または不正確な場合、リプランニングは人間の目標との整合性を改善するか?
  • RQ7RQ7: リプランニング後、エージェントは高レベル計画を効果的に修正できるか?

主な発見

  • LLM が生成する高レベル計画は人間のサブゴールと部分的に整合する;NL の計画はステップの 60.6%、PDDL の計画は 67.7% に整合。
  • 構造化されたPDDL計画はより簡潔で、目標指向の高レベル計画を生み出し、整合率が高く(84.6% 対 70.6%)、欠落・分解・不整合のステップが低い。
  • 低レベル実行が主要なボトルネックであり、正確な高レベル計画があっても、NL を実行者とした場合の計画完遂は 38.5%、最終成功は 36.4%。
  • 探索後のリプランニングはサブゴール完了と全体タスク成功を改善する。NL の計画はリプランニング後の整合性が一部低下するが、サブゴール完了は高い。PDDL はリプランニング後の整合性がより安定。
  • gpt-5-nano は計画/実行タスク全般で claude-haiku-4.5 や gemini-flash-2.5 より優れている。gemini-flash-2.5 はコンパクトな計画を生成するが実行が弱く、claude-haiku-4.5 は幻のリンクが少ないが繰り返しが多い。
Figure 2: Execution results of different representations
Figure 2: Execution results of different representations

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。