QUICK REVIEW

[論文レビュー] Why Do LLM-based Web Agents Fail? A Hierarchical Planning Perspective

Mohamed Aghzal, G. Stein|arXiv (Cornell University)|Mar 15, 2026

Speech and dialogue systems被引用数 0

ひとこと要約

この論文は、LLM ベースのウェブエージェントを高レベルの計画、低レベルの実行、リプランニングの三層で診断する階層的計画フレームワークを導入し、構造化されたPDDLプランがアラインメントを改善すること、ただし grounding/実行が依然として主なボトルネックであることを示している。

ABSTRACT

Large language model (LLM) web agents are increasingly used for web navigation but remain far from human reliability on realistic, long-horizon tasks. Existing evaluations focus primarily on end-to-end success, offering limited insight into where failures arise. We propose a hierarchical planning framework to analyze web agents across three layers (i.e., high-level planning, low-level execution, and replanning), enabling process-based evaluation of reasoning, grounding, and recovery. Our experiments show that structured Planning Domain Definition Language (PDDL) plans produce more concise and goal-directed strategies than natural language (NL) plans, but low-level execution remains the dominant bottleneck. These results indicate that improving perceptual grounding and adaptive control, not only high-level reasoning, is critical for achieving human-level reliability. This hierarchical perspective provides a principled foundation for diagnosing and advancing LLM web agents.

研究の動機と目的

LLM ウェブエージェントのエンド・ツー・エンドの成功指標を超えた細粒分析を動機づける。
評価のための三層階層フレームワーク（高レベル計画、低レベル実行、リプランニング）を提案する。
Mind2Web-Live を人間と同調した高レベル計画で拡張し、構造化分析を可能にする。
複数の LLM にわたる高レベル計画の表現として自然言語（NL）と PDDL を比較する。
grounding と制御の改善を導くために、失敗がどこから生じるかを特定する。

提案手法

LLM ウェブエージェントの階層的計画ベースの評価フレームワークを導入。高レベル計画を NL または PDDL で grounding し、人手によるサブゴールとの整合性を評価。サブゴール完了を検証する postcondition チェッカー（LLM が判定者）を使用。ライブウェブタスクを用いて、3 つの層—高レベル計画、低レベル実行、リプランニング—を分析。 3 つのアクション表現を比較：Expanded、Action Object、Action ID。 Mind2Web-Live のタスクで 3 モデル（gpt-5-nano、claude-haiku-4.5、gemini-flash-2.5）を評価。

Figure 1: Overview of the hierarchical planning evaluation framework we propose. The pipeline consists of 3 stages: 1) High-level Planning: The LLM proposes high-level subgoals, 2) Low-level Execution: each high-level subgoal is translated into a set of low-level actions, a postcondition checker ver

実験結果

リサーチクエスチョン

RQ1RQ1: LLM は人間作成のサブゴールと整合する高レベル計画を生成するか？
RQ2RQ2: 構造化表現（例：PDDL）は NL より人間の計画との整合性を改善するか？
RQ3RQ3: NL と PDDL によって生成された高レベルゴールはどれだけ実行可能か？
RQ4RQ4: 正確な高レベル計画があれば、LLM は低レベルアクションをどの程度信頼して実行できるか？
RQ5RQ5: 低レベル実行の主な失敗モードは何か？
RQ6RQ6: 初期計画が部分的または不正確な場合、リプランニングは人間の目標との整合性を改善するか？
RQ7RQ7: リプランニング後、エージェントは高レベル計画を効果的に修正できるか？

主な発見

LLM が生成する高レベル計画は人間のサブゴールと部分的に整合する；NL の計画はステップの 60.6%、PDDL の計画は 67.7% に整合。
構造化されたPDDL計画はより簡潔で、目標指向の高レベル計画を生み出し、整合率が高く（84.6% 対 70.6%）、欠落・分解・不整合のステップが低い。
低レベル実行が主要なボトルネックであり、正確な高レベル計画があっても、NL を実行者とした場合の計画完遂は 38.5%、最終成功は 36.4%。
探索後のリプランニングはサブゴール完了と全体タスク成功を改善する。NL の計画はリプランニング後の整合性が一部低下するが、サブゴール完了は高い。PDDL はリプランニング後の整合性がより安定。
gpt-5-nano は計画/実行タスク全般で claude-haiku-4.5 や gemini-flash-2.5 より優れている。gemini-flash-2.5 はコンパクトな計画を生成するが実行が弱く、claude-haiku-4.5 は幻のリンクが少ないが繰り返しが多い。

Figure 2: Execution results of different representations

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。