[論文レビュー] WebShop: Towards Scalable Real-World Web Interaction with Grounded Language Agents
WebShop は現実世界の製品1.18Mとクラウドソースの指示12,087を用いた大規模なシミュレート型eコマースウェブ環境を導入し、RLと模倣学習を通じて grounded language エージェントを研究。タスクの最高成功率は28.7%対人間59.6%、sim-to-real転送を amazon.com と ebay.com に示す。
Existing benchmarks for grounding language in interactive environments either lack real-world linguistic elements, or prove difficult to scale up due to substantial human involvement in the collection of data or feedback signals. To bridge this gap, we develop WebShop -- a simulated e-commerce website environment with $1.18$ million real-world products and $12,087$ crowd-sourced text instructions. Given a text instruction specifying a product requirement, an agent needs to navigate multiple types of webpages and issue diverse actions to find, customize, and purchase an item. WebShop provides several challenges for language grounding including understanding compositional instructions, query (re-)formulation, comprehending and acting on noisy text in webpages, and performing strategic exploration. We collect over $1,600$ human demonstrations for the task, and train and evaluate a diverse range of agents using reinforcement learning, imitation learning, and pre-trained image and language models. Our best model achieves a task success rate of $29\%$, which outperforms rule-based heuristics ($9.6\%$) but is far lower than human expert performance ($59\%$). We also analyze agent and human trajectories and ablate various model components to provide insights for developing future agents with stronger language understanding and decision making abilities. Finally, we show that agents trained on WebShop exhibit non-trivial sim-to-real transfer when evaluated on amazon.com and ebay.com, indicating the potential value of WebShop in developing practical web-based agents that can operate in the wild.
研究の動機と目的
- 対話タスクでの言語の grounding のための、スケーラブルで現実的なウェブベースのベンチマークを提供する。
- 現実世界の言語、画像、そして現実のウェブ利用を反映する多様なアクション空間を取り入れる。
- テキストと製品属性からの自動報酬計算を可能にし、スケーラブルな学習を促進する。
- 事前学習済みの言語・視覚モデルに基づくRLと模倣学習アプローチを評価する。
- エージェントのリアルなeコマースサイトへのsim-to-real転送を調査する。
提案手法
- ResNet 視覚エンコーダと Transformer テキストエンコーダを用いたモジュール型アーキテクチャでエージェントをモデル化する。
- 文脈内でアクションを評価しアクション分布を生成するアテンション融合層を使用する。
- 人間のデモンストレーションを用いた模倣学習で訓練し、ポリシー勾配RLで微調整する(IL+RL)。
- 言語モデル(例:BART、BERT)でコンポーネントを事前学習し、生成のための固定検索オラクルと組み合わせる。
- トレーニングとsim-to-real転送を支援するため、観察とアクションを2モード環境(HTMLとsimple)で表現する。
- 属性・オプションの一致、価格制約、タイプとテキストの一致に基づく報酬関数を定義する。)
実験結果
リサーチクエスチョン
- RQ1多様なアクションとノイズのあるテキストを用いて、現実的で大規模なウェブ環境で製品を特定し購入することを、スケーラブルな grounded language エージェントは学習できるか?
- RQ2このウェブベースの環境で模倣学習と強化学習はどのように比較され、言語の事前学習が性能に与える影響はどうか?
- RQ3WebShopで学習したエージェントは微調整なしでAmazonやeBayのような実世界のeコマースサイトへどの程度転送できるか?
主な発見
- 最も良く機能したモデル(IL+RL)は、WebShop テストセットで 62.4 のタスクスコアと 28.7% の成功率を達成。
- ルールベースのヒューリスティクスは 45.6 のスコアと 9.6% の成功率を達成し、学習ベースの手法の価値を示している。
- 人間専門家は 82.1 のタスクスコアと 59.6% の成功率に達し、現状のモデルのギャップを浮き彫りにしている。
- ゼロショットのsim-to-real転送では、Amazon(65.9 スコア、25% SR)および eBay(62.3 スコア、21% SR)で IL+RL がルールベースを上回る。
- アブレーションは、テキスト生成と意思決定のための言語事前学習の重要性、およびオプション/離散決定の精度の課題を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。