Skip to main content
QUICK REVIEW

[论文解读] Why Do LLM-based Web Agents Fail? A Hierarchical Planning Perspective

Mohamed Aghzal, G. Stein|arXiv (Cornell University)|Mar 15, 2026
Speech and dialogue systems被引用 0
一句话总结

该论文提出一个分层规划框架,用于诊断基于LLM的网页代理在高层 planning、低层执行和再规划中的表现,结果表明结构化的 PDDL 计划能提升对齐度,但 grounding/执行仍是主要瓶颈。

ABSTRACT

Large language model (LLM) web agents are increasingly used for web navigation but remain far from human reliability on realistic, long-horizon tasks. Existing evaluations focus primarily on end-to-end success, offering limited insight into where failures arise. We propose a hierarchical planning framework to analyze web agents across three layers (i.e., high-level planning, low-level execution, and replanning), enabling process-based evaluation of reasoning, grounding, and recovery. Our experiments show that structured Planning Domain Definition Language (PDDL) plans produce more concise and goal-directed strategies than natural language (NL) plans, but low-level execution remains the dominant bottleneck. These results indicate that improving perceptual grounding and adaptive control, not only high-level reasoning, is critical for achieving human-level reliability. This hierarchical perspective provides a principled foundation for diagnosing and advancing LLM web agents.

研究动机与目标

  • 推动对LLM网页代理进行细粒度分析,超越端到端成功指标。
  • 提出一个三层分层框架(高层规划、低层执行、再规划)用于评估。
  • 在 Mind2Web-Live 中扩展人类对齐的高层计划以实现结构化分析。
  • 比较多种LLM在跨多模型的高层规划中使用自然语言(NL)和PDDL表示的效果。
  • 识别故障源以指导对 grounding 与控制的改进。

提出的方法

  • 提出一个基于分层规划的LLM网页代理评估框架。 将高层计划绑定于 NL 或 PDDL,并评估其与人类子目标的对齐性。 使用后置条件检查器(LLM 作为评审)来验证子目标完成情况。 分析三个层次——高层规划、低层执行、再规划——在实时网页任务中的表现。 比较三种行动表示:Expanded、Action Object、Action ID。 在 Mind2Web-Live 任务上评估三种模型(gpt-5-nano、claude-haiku-4.5、gemini-flash-2.5)。
Figure 1: Overview of the hierarchical planning evaluation framework we propose. The pipeline consists of 3 stages: 1) High-level Planning: The LLM proposes high-level subgoals, 2) Low-level Execution: each high-level subgoal is translated into a set of low-level actions, a postcondition checker ver
Figure 1: Overview of the hierarchical planning evaluation framework we propose. The pipeline consists of 3 stages: 1) High-level Planning: The LLM proposes high-level subgoals, 2) Low-level Execution: each high-level subgoal is translated into a set of low-level actions, a postcondition checker ver

实验结果

研究问题

  • RQ1RQ1: LLM 是否会生成与人类作者的子目标对齐的高层计划?
  • RQ2RQ2: 结构化表示(如 PDDL)是否比 NL 更能提升与人类计划的对齐?
  • RQ3RQ3: NL 与 PDDL 产出的高层目标执行性有多高?
  • RQ4RQ4: 在高层计划准确的前提下,LLMs 能多可靠地执行低层行动?
  • RQ5RQ5: 低层执行的主要失败模式是什么?
  • RQ6RQ6: 当初始计划部分或不正确时,再规划是否能提升与人类目标的对齐?
  • RQ7RQ7: 再规划后代理能否有效修订高层计划?

主要发现

  • LLM 生成的高层计划在一定程度上与人类子目标对齐;NL 计划对齐率为 60.6%,PDDL 计划对齐率为 67.7%。
  • 结构化的 PDDL 计划能产生更简洁、以目标为导向的高层计划,匹配率更高(84.6% 对 70.6%),缺失/分解/不匹配的步骤更少。
  • 低层执行是主要瓶颈;即使高层计划准确,使用 NL 作为执行者时,计划完成率为 38.5%,最终成功率为 36.4%。
  • 再规划在探索后提升子目标完成和整体任务成功率,NL 计划在再规划后对齐略有下降但子目标完成度更高;PDDL 在再规划后的对齐保持更稳定。
  • gpt-5-nano 在规划/执行任务上普遍优于 claude-haiku-4.5 与 gemini-flash-2.5;gemini-flash-2.5 产生紧凑的计划但执行效果弱,而 claude-haiku-4.5 虽然召回的误导性链接较少,但重复性较多。
Figure 2: Execution results of different representations
Figure 2: Execution results of different representations

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。