QUICK REVIEW

[論文レビュー] InfiniteWeb: Scalable Web Environment Synthesis for GUI Agent Training

Ziyun Zhang, Zezhou Wang|arXiv (Cornell University)|Jan 7, 2026

Web Data Mining and Analysis被引用数 0

ひとこと要約

InfiniteWebは、GUIエージェント訓練のための機能性が検証可能な評価者を備えた機能的で多様なウェブ環境を自動的に生成し、ベースラインと比較して機能的正確性を高め、エージェントの性能を向上させる。

ABSTRACT

GUI agents that interact with graphical interfaces on behalf of users represent a promising direction for practical AI assistants. However, training such agents is hindered by the scarcity of suitable environments. We present InfiniteWeb, a system that automatically generates functional web environments at scale for GUI agent training. While LLMs perform well on generating a single webpage, building a realistic and functional website with many interconnected pages faces challenges. We address these challenges through unified specification, task-centric test-driven development, and a combination of website seed with reference design image to ensure diversity. Our system also generates verifiable task evaluators enabling dense reward signals for reinforcement learning. Experiments show that InfiniteWeb surpasses commercial coding agents at realistic website construction, and GUI agents trained on our generated environments achieve significant performance improvements on OSWorld and Online-Mind2Web, demonstrating the effectiveness of proposed system.

研究の動機と目的

GUIエージェントの訓練に向けて、スケーラブルで多様かつ検証可能なウェブ環境の必要性を動機づける。
クロスページの一貫性と正確性を保証する統一仕様とタスク中心のテスト駆動開発を提案する。
視覚的に多様なウェブサイトを生成するためのデザインガイド付きフロントエンドとシードベースの多様性を導入する。
エージェント訓練の密な報酬信号を生む自動評価者を提供する。
ベースラインよりもウェブサイトのリアリズムとGUIエージェントの性能の改善を実証する。

提案手法

統一仕様：生成タスクからデータモデルとインターフェースを導出し、ページ間の一貫性を保証する。
タスク中心バックエンドとTDD駆動開発（TCTDD）：すべてのテストが合格するまで、タスク関連コードを生成・反復修正する。
デザインガイド付きフロントエンド：参考デザイン画像を用いて視覚特徴を抽出し、視覚的多様性を導くページ生成を行う。
評価者生成：計装変数を用いてタスク固有の評価者を作成し、密な強化学習報酬信号を提供する。
シード＋デザイン画像ガイダンス：ウェブサイトのシードとデザイン画像を組み合わせて機能的・視覚的多様性を促進する。
評価方法論：WebGen-Bench上で機能的正確性と視覚品質をベースラインと比較し、OSWorldとOnline-Mind2Webでのエージェント訓練への影響を評価する。

実験結果

リサーチクエスチョン

RQ1自動生成されたエンドツーエンドのマルチページウェブサイトは、GUIエージェント訓練のための現実的で機能的な環境を提供できるのか？
RQ2統一仕様とタスク中心の正確性はページ間の一貫性を改善し、生成ウェブサイトの機能的バグを減らすのか？
RQ3デザイン画像とシードは、GUIエージェントの過学習を防ぐための視覚的・機能的多様性を十分に提供するのか？
RQ4自動生成された評価者は、密で有益な報酬を提供し、RLベースのGUIエージェント訓練を改善するのか？
RQ5InfiniteWeb環境で訓練されたエージェントは、現実のウェブやデスクトップタスクへどれくらい移行するのか？

主な発見

InfiniteWebは、比較対象のベースラインの中で総合的なWebGen-Benchスコアが85.6%と最高を記録。
タスク中心の正確性とTCTDDにより機能的精度が約5ポイント向上。
計装による密な報酬信号は、二値報酬アプローチより4.4倍多くのタスクから学習を促進。
InfiniteWeb生成環境での訓練により、OSWorldで+6.9ポイント、Online-Mind2Webで+5.7ポイントの性能向上を達成。
視覚品質の評価では、LLMをジャッジとして用いた評価で、我々の手法が一貫して69–85%の勝利を収める。
InfiniteWeb環境でのエージェント訓練はOSWorldとOnline-Mind2Webの性能を改善し、現実世界のタスクへの移行を示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。