[論文レビュー] Reinforcement Learning on Web Interfaces Using Workflow-Guided Exploration
本稿では、ワークフロー誘導型探索(WGE)を提案する。これは強化学習フレームワークであり、エキスパートのデモンストレーションを用いて、環境に依存しない高レベルのワークフローを誘導し、探索を制約することで、Webインターフェース上でのサンプル効率の高い学習を促進する。これらのワークフローで探索を誘導することにより、World of Bits や MiniWoB などのWebベンチマークタスクにおいて、行動クラーニングより100倍以上のサンプル効率の向上を達成した。
Reinforcement learning (RL) agents improve through trial-and-error, but when reward is sparse and the agent cannot discover successful action sequences, learning stagnates. This has been a notable problem in training deep RL agents to perform web-based tasks, such as booking flights or replying to emails, where a single mistake can ruin the entire sequence of actions. A common remedy is to "warm-start" the agent by pre-training it to mimic expert demonstrations, but this is prone to overfitting. Instead, we propose to constrain exploration using demonstrations. From each demonstration, we induce high-level "workflows" which constrain the allowable actions at each time step to be similar to those in the demonstration (e.g., "Step 1: click on a textbox; Step 2: enter some text"). Our exploration policy then learns to identify successful workflows and samples actions that satisfy these workflows. Workflows prune out bad exploration directions and accelerate the agent's ability to discover rewards. We use our approach to train a novel neural policy designed to handle the semi-structured nature of websites, and evaluate on a suite of web tasks, including the recent World of Bits benchmark. We achieve new state-of-the-art results, and show that workflow-guided exploration improves sample efficiency over behavioral cloning by more than 100x.
研究の動機と目的
- ランダムな探索による成功アクション列の発見が困難な、報酬が疎であるWebベースの強化学習における課題に対処すること。
- エキスパートのデモンストレーションを直接行動クラーニングすることで生じる過学習を回避し、多様なWeb状態にわたって一般化が悪い問題を克服すること。
- デモンストレーションを模倣するのではなく、高レベルのアクション制約として用いることで、Webインタラクションにおける深層強化学習のサンプル効率を向上させること。
- 探索とポリシー学習を分離することで、過学習を回避し、複雑で部分的に構造化されたWebタスクを効果的に学習できる強力なニューラルポリシーを可能にすること。
- デモンストレーションから自動的にワークフローを誘導し、非生産的な探索経路を pruning するためのフレームワークを開発すること。
提案手法
- 各エキスパートデモンストレーションに対して、成功したタスク実行の構造を捉える、環境に依存しないアクションタイプの抽象的で順序付けられたシーケンス(例:'テキストボックスをクリック'、'テキストを入力')からなるワークフローラティスを誘導する。
- 強化学習を用いて、これらのワークフローを選択・実行するワークフローエクスプロレーションポリシー(π_w)を訓練する。このポリシーは、ワークフロー内のアクションと意味的に類似したアクションをサンプリングする。
- ワークフロー誘導型探索によって発見された成功した軌道は、リプレイバッファに格納され、最終的なタスク実行用に別個の表現力の高いニューラルポリシー(π_n)の学習に使用される。
- ニューラルポリシーは、DOMnetとして実装されており、Webページの木構造のHTMLに対して関係的推論を実行することで、Webインターフェースの部分的に構造化された性質に対応する。
- フレームワークは、ワークフロポリシーの訓練とニューラルポリシーの訓練を交互に繰り返し、経験リプレイを用いて学習の安定性とデータ効率を向上させる。
- ワークフローは状態の類似性ではなく、アクションの類似性に基づいて定義されるため、異なるWebページの状態間で頑健な一般化が可能になる。
実験結果
リサーチクエスチョン
- RQ1ワークフロー誘導型探索は、Webインタラクションタスクにおける深層強化学習のサンプル効率を顕著に向上させることができるか?
- RQ2デモンストレーションを直接アクションの模倣に用いるのではなく、探索を制約するために用いることで、未観測のWeb状態において過学習を軽減し、一般化性能を向上させることができるか?
- RQ3行動クラーニングやエンドツーエンドRLと比較して、ワークフロー誘導型探索はWebベンチマークにおいて、成功確率とデータ効率の両面で優れているか?
- RQ4ワークフロー誘導型探索の経験から学習したニューラルポリシーは、最小限の監視のもとで、多様なWebインターフェースにわたって一般化できるか?
- RQ5アクションベースのワークフローアブストラクションは、状態ベースの抽象化よりも、WebRLにおける探索誘導に効果的であるか?
主な発見
- ワークフロー誘導型探索は、MiniWoBおよびWorld of Bitsベンチマークにおいて、行動クラーニングよりも100倍以上のサンプル効率の向上を達成した。
- 本手法は、直接模倣に依存するか、標準的なRLに依存する先行手法よりも優れた性能を達成し、World of Bitsベンチマークで最先端の性能を記録した。
- ワークフローで探索を誘導することで、報酬が疎でアクション空間が大きな状況においても、成功した軌道をはるかに速く発見できた。
- WGEの経験から学習したニューラルポリシー(DOMnet)は、特定のデモンストレーションに過学習せず、さまざまなWebページ構造や状態にわたって良好に一般化した。
- フレームワークは、探索(ワークフローで誘導)とポリシー学習(表現力のあるニューラルネットワーク)を効果的に分離し、頑健で効率的な学習を可能にした。
- 状態の類似性ではなく、アクションの類似性に基づいてワークフローの近傍を定義することで、Webインターフェースタスクにおいてより効果的で直感的な一般化が実現された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。