Skip to main content
QUICK REVIEW

[論文レビュー] WebNavigator: Global Web Navigation via Interaction Graph Retrieval

Xuanwang Zhang, Yuteng Han|arXiv (Cornell University)|Mar 20, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

WebNavigator は WebNavigator は事前構築された Interaction Graph 上で決定論的な Retrieve-Reason-Teleport ワークフローとしてウェブナビゲーションを再定義し、Topological Blindness に対処し、6アクションのコンパクトなインターフェースで WebArena と Online-Mind2Web で最先端の結果を達成する。

ABSTRACT

Despite significant advances in autonomous web navigation, current methods remain far from human-level performance in complex web environments. We argue that this limitation stems from Topological Blindness, where agents are forced to explore via trial-and-error without access to the global topological structure of the environment. To overcome this limitation, we introduce WebNavigator, which reframes web navigation from probabilistic exploration into deterministic retrieval and pathfinding. WebNavigator constructs Interaction Graphs via zero-token cost heuristic exploration offline and implements a Retrieve-Reason-Teleport workflow for global navigation online. WebNavigator achieves state-of-the-art performance on WebArena and OnlineMind2Web. On WebArena multi-site tasks, WebNavigator achieves a 72.9\% success rate, more than doubling the performance of enterprise-level agents. This work reveals that Topological Blindness, rather than model reasoning capabilities alone, is an underestimated bottleneck in autonomous web navigation.

研究の動機と目的

  • 反応的で試行錯誤的なウェブナビゲーションから、永続的な環境グラフを用いたグローバル計画へ移行する動機づけ。
  • LLMs に依存せずサイトのトポロジーを捉える Offline Interaction Graph 構築を提案。
  • 決定論的なナビゲーションのための Retrieve-Reason-Teleport ワークフローを備えた Online Retrieval-Augmented Navigation を導入。
  • WebArena と Online-Mind2Web で最先端の性能を示し、アクション空間の削減とサイト間一般化の向上を強調。
  • 環境知識の完全性が基本的なボトルネックであり、環境知識が計画効率を大幅に向上させるとの実証的証拠を提供。

提案手法

  • オフラインのヒューリスティック自動探索により Interaction Graph G を構築し、動的要素と相互作用し、マルチモーダル観測(スクリーンショットと構造メタデータ)を捉える。
  • すべてのノードをベクトルデータベースに埋め込み・インデックス化し、オンラインナビゲーション中の LLM 呼び出しなしでの検索を可能にする。
  • 推論時には三段階の Global-View Navigator を用いる:マルチモーダル検索で top-k 候補ノードを取得、マルチモーダル LLM で最良候補を Reason で選択、G でターゲットノードへの最短経路を計算して Teleport。
  • planning, domain switching, and low-level browser state management を包摂する unified navigate(domain,query) アクションで運用する。
  • 取得には後期相互作用、トークンレベルの埋め込み類似度を用いて検索を行い、クエリと観察の間の微細な整合性を保持する。
  • 6アクションインターフェースとグローバルグラフ巡回を用いることで、純粋に反応的なベースラインと比較して決定論的かつグローバル最適なナビゲーションを実現する。
Figure 1: Overview of WebNavigator. WebNavigator resolves Topological Blindness via a two-phase paradigm. (1) Offline Interaction Graph Construction . A heuristic auto-exploration engine discovers dynamic page observations at zero-token cost and indexes all observations into a vector database. (2) O
Figure 1: Overview of WebNavigator. WebNavigator resolves Topological Blindness via a two-phase paradigm. (1) Offline Interaction Graph Construction . A heuristic auto-exploration engine discovers dynamic page observations at zero-token cost and indexes all observations into a vector database. (2) O

実験結果

リサーチクエスチョン

  • RQ1 compact offline 構築の Interaction Graph が決定論的なウェブナビゲーションを可能にするグローバル構造を十分に捉え得るか?
  • RQ2グラフ上の Retrieve-Reason-Teleport に navigation を再配置することで、Topological Blindness を diverse なサイト間で緩和できるか?
  • RQ3知識の完全性とマルチモーダル検索の帯域幅がナビゲーションの成功にどう影響するか?
  • RQ4 Late-interaction retrieval と dense embeddings の検索品質・ナビゲーション性能への影響は?
  • RQ5 unified, domain-agnostic navigate(domain,query) インターフェース は複数サイト一般化に十分か?

主な発見

MethodModelAct #WebArena SR (%)Online-Mind2Web SR (%)Multisite SR (%)Shopping SR (%)CMS SR (%)Reddit SR (%)GitLab SR (%)Map SR (%)
WebNavigator (Ours)Qwen3-VL-32B-Instruct647.843.844.945.175.550.644.039.7
WebNavigator (Ours)GPT-4o649.950.044.448.673.642.251.441.3
WebNavigator (Ours)Claude-Sonnet-4657.150.051.958.285.950.051.438.7
WebNavigator (Ours)Gemini-2.5-Pro663.372.951.966.585.962.253.252.7
  • WebNavigator は WebArena と Online-Mind2Web で最先端の性能を達成し、Gemini-2.5-Pro 使用時の multi-site タスクで 72.9%(enterprise レベルの CUGA に対して)を達成。
  • WebArena のマルチサイトタスクでは GPT-4o で 50.0%、Gemini-2.5-Pro で 63.3% の成功率に達し、従来手法を大幅に上回る。
  • Online-Mind2Web の 136 の実サイトを横断して、Gemini-2.5-Pro で 52.7% を達成し、強力な一般化を確立。
  • この手法は six-action インターフェース(navigate(domain,query))と Retrieve-Reason-Teleport ワークフローを用い、ナビゲーションを Interaction Graph 上の決定論的パス探索へ転換。
  • Late-interaction retrieval(トークンレベル)は dense embedding 法よりも検索に優れ、視覚セマンティックマッチングの細粒度の重要性を示す。
  • 経験的アブレーションにより、環境知識の完全性(深さ)と情報帯域幅(k)が性能に強く影響し、適切な探索と堅牢な 6 アクション設計を超える利得は限定的であることが示される。
Figure 2: Trajectory comparison on a multi-site task (WebArena 760), which requires retrieving a specific customer address from the CMS to plan a route on the Map. WebNavigator achieves human-level planning via two navigate(domain, query) actions, whereas the ReAct baseline prematurely terminates du
Figure 2: Trajectory comparison on a multi-site task (WebArena 760), which requires retrieving a specific customer address from the CMS to plan a route on the Map. WebNavigator achieves human-level planning via two navigate(domain, query) actions, whereas the ReAct baseline prematurely terminates du

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。