QUICK REVIEW

[논문 리뷰] Why Do LLM-based Web Agents Fail? A Hierarchical Planning Perspective

Mohamed Aghzal, G. Stein|arXiv (Cornell University)|2026. 03. 15.

Speech and dialogue systems인용 수 0

한 줄 요약

논문은 LLM 기반 웹 에이전트를 고수준 계획, 저수준 실행, 재계획으로 진단하는 계층적 계획 프레임워크를 제시하며, 구조화된 PDDL 계획이 정합성을 향상시키고 grounding/execution가 여전히 주요 병목임을 보여준다.

ABSTRACT

Large language model (LLM) web agents are increasingly used for web navigation but remain far from human reliability on realistic, long-horizon tasks. Existing evaluations focus primarily on end-to-end success, offering limited insight into where failures arise. We propose a hierarchical planning framework to analyze web agents across three layers (i.e., high-level planning, low-level execution, and replanning), enabling process-based evaluation of reasoning, grounding, and recovery. Our experiments show that structured Planning Domain Definition Language (PDDL) plans produce more concise and goal-directed strategies than natural language (NL) plans, but low-level execution remains the dominant bottleneck. These results indicate that improving perceptual grounding and adaptive control, not only high-level reasoning, is critical for achieving human-level reliability. This hierarchical perspective provides a principled foundation for diagnosing and advancing LLM web agents.

연구 동기 및 목표

LLM 웹 에이전트에 대한 엔드-투-엔드 성공 지표를 넘어 세밀한 분석의 동기를 부여한다.
고수준 계획, 저수준 실행, 재계획의 세 계층으로 구성된 계층적 프레임워크를 평가를 위해 제안한다.
구조화된 분석이 가능하도록 인간 정합적 고수준 계획을 Mind2Web-Live에 확장한다.
다수의 LLM에 걸쳐 고수준 계획에 대해 자연어(NL)와 PDDL 표현을 비교한다.
grounding 및 제어 개선을 돕기 위해 실패의 원인을 식별한다.

제안 방법

LLM 웹 에이전트를 위한 계층적 계획 기반 평가 프레임워크를 도입한다.
고수준 계획을 NL 또는 PDDL로 구체화하고 인간 서브목표에의 정합성을 평가한다.
서브목표 완료를 검증하기 위해 포스트조건 검사기(LLM-가-판사) 를 사용하여 서브목표의 완료를 검증한다.
실시간 웹 작업을 사용하여 세 계층—고수준 계획, 저수준 실행, 재계획—을 분석한다.
확장형(Expanded), 액션 오브젝트(Action Object), 액션 ID(Action ID) 등 세 가지 액션 표현을 비교한다.
Mind2Web-Live 작업에서 세 모델(gpt-5-nano, claude-haiku-4.5, gemini-flash-2.5)을 평가한다.

Figure 1: Overview of the hierarchical planning evaluation framework we propose. The pipeline consists of 3 stages: 1) High-level Planning: The LLM proposes high-level subgoals, 2) Low-level Execution: each high-level subgoal is translated into a set of low-level actions, a postcondition checker ver

실험 결과

연구 질문

RQ1RQ1: LLM이 인간이 작성한 서브목표와 정합된 고수준 계획을 생성하는가?
RQ2RQ2: 구조화된 표현(PDDL 등)이 인간 계획과의 정합성을 NL보다 향상시키는가?
RQ3RQ3: NL과 PDDL로 생성된 고수준 목표의 실행 가능성은 어느 정도인가?
RQ4RQ4: 정확한 고수준 계획이 주어졌을 때 LLM은 저수준 작업을 얼마나 신뢰성 있게 실행할 수 있는가?
RQ5RQ5: 저수준 실행에서 주요 실패 모드는 무엇인가?
RQ6RQ6: 초기 계획이 부분적이거나 부정확할 때 재계획이 인간 목표와의 정합성을 개선하는가?
RQ7RQ7: 재계획 후 에이전트가 고수준 계획을 효과적으로 수정할 수 있는가?

주요 결과

LLM이 생성한 고수준 계획은 인간 서브목표와 부분적으로 정합한다; NL 계획은 단계의 60.6%에 정합하고, PDDL 계획은 67.7%에 정합한다.
구조화된 PDDL 계획은 더 간결하고 목표 지향적인 고수준 계획을 낳으며 정합 비율이 더 높고(84.6% 대 70.6%), 누락/분해/일치하지 않는 단계가 더 낮다.
저수준 실행이 주요 병목이다; 정확한 고수준 계획이 있어도 실행기로 NL을 사용할 경우 계획 완료는 38.5%, 최종 성공은 36.4%이다.
탐색 후 재계획은 서브목표 완료 및 전체 작업 성공을 개선하며, NL 계획은 정합성의 일부 저하를 보이지만 재계획 후 서브목표 완료는 더 높아지고, PDDL은 재계획 후 정합성이 더 안정적이다.
gpt-5-nano가 계획/실행 과제에서 claude-haiku-4.5 및 gemini-flash-2.5보다 우수하다; gemini-flash-2.5는 간결한 계획을 생성하지만 실행은 약하고, claude-haiku-4.5는 환각된 링크가 적지만 반복이 더 많다.

Figure 2: Execution results of different representations

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.