Skip to main content
QUICK REVIEW

[論文レビュー] STRUCTUREDAGENT: Planning with AND/OR Trees for Long-Horizon Web Tasks

ELita Lobo, Xu Chen|arXiv (Cornell University)|Mar 5, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

StructuredAgent は、長期的なウェブタスクに対処するための動的な And/Or 木計画と構造化メモリモジュールを導入し、優れた性能を発揮するとともに、WebVoyager、WebArena、ショッピングのベンチマークで解釈可能な計画を提供します。

ABSTRACT

Recent advances in large language models (LLMs) have enabled agentic systems for sequential decision-making. Such agents must perceive their environment, reason across multiple time steps, and take actions that optimize long-term objectives. However, existing web agents struggle on complex, long-horizon tasks due to limited in-context memory for tracking history, weak planning abilities, and greedy behaviors that lead to premature termination. To address these challenges, we propose STRUCTUREDAGENT, a hierarchical planning framework with two core components: (1) an online hierarchical planner that uses dynamic AND/OR trees for efficient search and (2) a structured memory module that tracks and maintains candidate solutions to improve constraint satisfaction in information-seeking tasks. The framework also produces interpretable hierarchical plans, enabling easier debugging and facilitating human intervention when needed. Our results on WebVoyager, WebArena, and custom shopping benchmarks show that STRUCTUREDAGENT improves performance on long-horizon web-browsing tasks compared to standard LLM-based agents.

研究の動機と目的

  • 現在の LLM ベースのウェブエージェントが長期的タスクで直面する制約( memory, planning, robustness )を解消する。
  • 計画と実行を交互に挟む階層的な And/Or 計画フレームワークを提案し、適応的な意思決定を行う。
  • 情報探索中の候補エンティティと制約を追跡する構造化メモリモジュールを導入する。
  • デバッグと人間の介入を容易にする解釈可能な階層的計画を提供する。
  • WebVoyager、WebArena、複雑なショッピングベンチマークでの有効性を示す。

提案手法

  • AND、OR、ACTION ノードから成る And/Or 計画木でタスクを表現する。
  • 高レベルのコントローラとして LLM を使用し、局所的な木操作指令を発行し、フレームワークが木の構築と走査を担当する。
  • 貪欲な反復的深さ優先探索を用いて And/Or 木を動的な改訂と誤差逆伝播と共に展開・剪定する。
  • ノード展開、ノード修復、グローバル木更新、ノード完了チェックといった木の操作を Observation Summarizer に導かれて実装する。
  • 動的候補エンティティ表を維持し、制約を満たす top-K 候補を取得して意思決定を導く構造化メモリモジュールを導入する。
Figure 1 : Illustration of StructuredAgent solving a web task via greedy DFS of a dynamically constructed And/Or tree. The root node represents the task objective and is expanded into subtasks that are progressively refined and executed. Node types are color-coded to distinguish OR ( $\vee$ ), AND (
Figure 1 : Illustration of StructuredAgent solving a web task via greedy DFS of a dynamically constructed And/Or tree. The root node represents the task objective and is expanded into subtasks that are progressively refined and executed. Node types are color-coded to distinguish OR ( $\vee$ ), AND (

実験結果

リサーチクエスチョン

  • RQ1StructuredAgent は複数のベンチマークやバックボーンに対して長期的ウェブタスクで成功率を向上させるか?
  • RQ2階層的 And/Or 計画と動的改訂および誤差逆伝播はウェブタスク実行の信頼性と解釈性にどのように影響するか?
  • RQ3構造化メモリモジュールは制約付き情報探索タスクにどのような影響を与えるか?
  • RQ4StructuredAgent の利点は Claude、Kimi-k2、GPT 系バックボーンなど、異なるモデルファミリに一般化するか?

主な発見

  • StructuredAgent は Amazon Easy タスクの平均で最高を達成(報告評価で 83.3%)。
  • StructuredAgentMem は人間評価の下で Amazon Hard の性能を約 5% 向上。
  • WebVoyager Easy では StructuredAgent はベースラインと競合し、約小さな低下(約 1.5%)のみ。
  • StructuredAgent は WebArena Shopping および Reddit タスクで全体性能を約 6%〜20%向上させ、ベースラインを上回る。
  • 階層的計画の利点は、より強力なバックボーンモデル(Claude 3.7)を使用しても持続する。
  • このアプローチは Claude 以外のモデルファミリにも一般化する(例:Kimi-k2-0905)、ただし長い文脈感度が利得に影響を与える可能性がある。
(a) WebVoyager
(a) WebVoyager

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。