QUICK REVIEW

[論文レビュー] Mind2Web: Towards a Generalist Agent for the Web

Xiang Deng, 裕二池谷|arXiv (Cornell University)|Jun 9, 2023

Topic Modeling被引用数 27

ひとこと要約

Mind2Webは一般istウェブエージェントのための実世界ウェブタスクデータセットを導入し、候補要素をランク付けする小型LMとアクションを予測するLLMを用いるMindActという2段階フレームワークを提案。ドメイン横断・ウェブサイト横断・タスク横断の一般化に関する広範な評価を行う。

ABSTRACT

We introduce Mind2Web, the first dataset for developing and evaluating generalist agents for the web that can follow language instructions to complete complex tasks on any website. Existing datasets for web agents either use simulated websites or only cover a limited set of websites and tasks, thus not suitable for generalist web agents. With over 2,000 open-ended tasks collected from 137 websites spanning 31 domains and crowdsourced action sequences for the tasks, Mind2Web provides three necessary ingredients for building generalist web agents: 1) diverse domains, websites, and tasks, 2) use of real-world websites instead of simulated and simplified ones, and 3) a broad spectrum of user interaction patterns. Based on Mind2Web, we conduct an initial exploration of using large language models (LLMs) for building generalist web agents. While the raw HTML of real-world websites are often too large to be fed to LLMs, we show that first filtering it with a small LM significantly improves the effectiveness and efficiency of LLMs. Our solution demonstrates a decent level of performance, even on websites or entire domains the model has never seen before, but there is still a substantial room to improve towards truly generalizable agents. We open-source our dataset, model implementation, and trained models (https://osu-nlp-group.github.io/Mind2Web) to facilitate further research on building a generalist agent for the web.

研究の動機と目的

137のウェブサイトと31のドメインにまたがる多様で実世界のウェブタスクデータセットを提供し、一般istウェブエージェントの訓練と評価を行う。
MindActを提案。小型LMで候補をランキングし、LLMでアクション予測を行う2段階モデル。
現実的なウェブ環境で、ドメイン・ウェブサイト・タスク間のエージェントの一般化能力を調査する。

提案手法

MindActはまずファインチューニング済みの小型LM（DeBERTa base）を用いてウェブページ要素をランク付けし、トップk候補要素を選択する。
トップk候補をウェブページのスニペットに凝縮し、LLMに入力して多肢選択式QAを用いたアクション予測（要素＋操作）を実行する。
学習は左から右へのLM目的で地真実のアクション履歴を用いる；推論はNoneオプションを伴う候補の反復的グルーピングを用いて単一の要素と操作へ収束させる。
評価は分類型の要素選択ベンチマークと生成ベースのアクション予測の両方を含み、ベースラインや複数のLLMバックボーン（Flan-T5系列、GPT-3.5、GPT-4）と比較する。
このアプローチは、候補絞り込みを伴う識別的（多肢選択）プロンプティングが、直接生成や単純な分類よりも性能を向上させることを示す。

実験結果

リサーチクエスチョン

RQ1実世界ウェブサイトから学習して、言語指示を用いてタスクを完了できる一般istウェブエージェントは作れるのか？
RQ2未知のドメイン・ウェブサイト・タスクタイプに対して、2段階のMindActフレームワークはどれだけ一般化できるのか？
RQ3小型LMによる高エントロピーHTMLの剪定は、実ウェブサイト上で大規模LMのグラウンディングとアクション予測を改善するのか？

主な発見

Model	Ele. Acc	Op. F1	Step SR	SR
w/ Flan-T5 B	43.6	76.8	41.0	4.0
w/ Flan-T5 L	53.4	75.7	50.3	7.1
w/ Flan-T5 XL	55.1	75.7	52.0	5.2
GPT-3.5	20.3	56.6	17.4	0.8
GPT-4	41.6	60.6	36.2	2.0
w/ GPT-3.5 (Website)	19.3	48.8	16.2	0.6
w/ GPT-4 (Website)	35.8	51.1	30.1	2.0
w/ GPT-3.5 (Domain)	21.6	52.8	18.6	1.0
w/ GPT-4 (Domain)	37.1	46.5	26.4	2.0

Mind2Webは137のウェブサイト、31のドメインから2,000を超えるタスクを提供し、一般istウェブエージェントを評価する。
多肢選択QA形式のMindActは、設定全体で最良のステップ成功率を達成し、生成および分類ベースラインを大幅に上回る。
タスク間一般化はクロスウェブサイト・クロスドメインよりも強く、最高のステップ成功率を示すのはクロス・タスク一般化であり、ドメイン/ウェブサイトの多様性が一般化の課題を大きくすることを示す。
GPT-4は高性能の可能性を示し、より小さなモデルと比較して高コストで競合結果を達成する一方、GPT-3.5はこの設定で要素選択の精度が限定的である。
候補生成のための小型LM（DeBERTa B）をファインチューニングすると、Recall@50が設定を跨いで約85%となり、LLM予測器の効果的な候補プールを実現する。
全体のタスク成功は設定を跨いで依然として難しく、実世界のウェブインタラクションにおける長期的な計画とグラウンディングの難しさを浮き彫りにする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。