QUICK REVIEW

[论文解读] Why Do LLM-based Web Agents Fail? A Hierarchical Planning Perspective

Mohamed Aghzal, G. Stein|arXiv (Cornell University)|Mar 15, 2026

Speech and dialogue systems被引用 0

一句话总结

该论文提出一个分层规划框架，用于诊断基于LLM的网页代理在高层 planning、低层执行和再规划中的表现，结果表明结构化的 PDDL 计划能提升对齐度，但 grounding/执行仍是主要瓶颈。

ABSTRACT

Large language model (LLM) web agents are increasingly used for web navigation but remain far from human reliability on realistic, long-horizon tasks. Existing evaluations focus primarily on end-to-end success, offering limited insight into where failures arise. We propose a hierarchical planning framework to analyze web agents across three layers (i.e., high-level planning, low-level execution, and replanning), enabling process-based evaluation of reasoning, grounding, and recovery. Our experiments show that structured Planning Domain Definition Language (PDDL) plans produce more concise and goal-directed strategies than natural language (NL) plans, but low-level execution remains the dominant bottleneck. These results indicate that improving perceptual grounding and adaptive control, not only high-level reasoning, is critical for achieving human-level reliability. This hierarchical perspective provides a principled foundation for diagnosing and advancing LLM web agents.

研究动机与目标

推动对LLM网页代理进行细粒度分析，超越端到端成功指标。
提出一个三层分层框架（高层规划、低层执行、再规划）用于评估。
在 Mind2Web-Live 中扩展人类对齐的高层计划以实现结构化分析。
比较多种LLM在跨多模型的高层规划中使用自然语言（NL）和PDDL表示的效果。
识别故障源以指导对 grounding 与控制的改进。

提出的方法

提出一个基于分层规划的LLM网页代理评估框架。将高层计划绑定于 NL 或 PDDL，并评估其与人类子目标的对齐性。使用后置条件检查器（LLM 作为评审）来验证子目标完成情况。分析三个层次——高层规划、低层执行、再规划——在实时网页任务中的表现。比较三种行动表示：Expanded、Action Object、Action ID。在 Mind2Web-Live 任务上评估三种模型（gpt-5-nano、claude-haiku-4.5、gemini-flash-2.5）。

Figure 1: Overview of the hierarchical planning evaluation framework we propose. The pipeline consists of 3 stages: 1) High-level Planning: The LLM proposes high-level subgoals, 2) Low-level Execution: each high-level subgoal is translated into a set of low-level actions, a postcondition checker ver

实验结果

研究问题

RQ1RQ1: LLM 是否会生成与人类作者的子目标对齐的高层计划？
RQ2RQ2: 结构化表示（如 PDDL）是否比 NL 更能提升与人类计划的对齐？
RQ3RQ3: NL 与 PDDL 产出的高层目标执行性有多高？
RQ4RQ4: 在高层计划准确的前提下，LLMs 能多可靠地执行低层行动？
RQ5RQ5: 低层执行的主要失败模式是什么？
RQ6RQ6: 当初始计划部分或不正确时，再规划是否能提升与人类目标的对齐？
RQ7RQ7: 再规划后代理能否有效修订高层计划？

主要发现

LLM 生成的高层计划在一定程度上与人类子目标对齐；NL 计划对齐率为 60.6%，PDDL 计划对齐率为 67.7%。
结构化的 PDDL 计划能产生更简洁、以目标为导向的高层计划，匹配率更高（84.6% 对 70.6%），缺失/分解/不匹配的步骤更少。
低层执行是主要瓶颈；即使高层计划准确，使用 NL 作为执行者时，计划完成率为 38.5%，最终成功率为 36.4%。
再规划在探索后提升子目标完成和整体任务成功率，NL 计划在再规划后对齐略有下降但子目标完成度更高；PDDL 在再规划后的对齐保持更稳定。
gpt-5-nano 在规划/执行任务上普遍优于 claude-haiku-4.5 与 gemini-flash-2.5；gemini-flash-2.5 产生紧凑的计划但执行效果弱，而 claude-haiku-4.5 虽然召回的误导性链接较少，但重复性较多。

Figure 2: Execution results of different representations

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。