QUICK REVIEW

[论文解读] Reinforcement Learning on Web Interfaces Using Workflow-Guided Exploration

Evan Zheran Liu, Kelvin Guu|arXiv (Cornell University)|Feb 24, 2018

Data Stream Mining Techniques被引用 31

一句话总结

本文提出工作流引导探索（WGE），一种利用专家演示来诱导高层、与环境无关的工作流以约束探索并加速网页界面样本高效学习的强化学习框架。通过这些工作流引导探索，该方法在网页基准任务（包括World of Bits和MiniWoB）上相较于行为克隆实现了超过100倍的样本效率提升。

ABSTRACT

Reinforcement learning (RL) agents improve through trial-and-error, but when reward is sparse and the agent cannot discover successful action sequences, learning stagnates. This has been a notable problem in training deep RL agents to perform web-based tasks, such as booking flights or replying to emails, where a single mistake can ruin the entire sequence of actions. A common remedy is to "warm-start" the agent by pre-training it to mimic expert demonstrations, but this is prone to overfitting. Instead, we propose to constrain exploration using demonstrations. From each demonstration, we induce high-level "workflows" which constrain the allowable actions at each time step to be similar to those in the demonstration (e.g., "Step 1: click on a textbox; Step 2: enter some text"). Our exploration policy then learns to identify successful workflows and samples actions that satisfy these workflows. Workflows prune out bad exploration directions and accelerate the agent's ability to discover rewards. We use our approach to train a novel neural policy designed to handle the semi-structured nature of websites, and evaluate on a suite of web tasks, including the recent World of Bits benchmark. We achieve new state-of-the-art results, and show that workflow-guided exploration improves sample efficiency over behavioral cloning by more than 100x.

研究动机与目标

为解决基于网页的强化学习中稀疏奖励的问题，即智能体难以通过随机探索发现成功的动作序列。
通过避免对演示进行直接行为克隆来克服模仿学习中的过拟合问题，因为直接克隆在不同网页状态间泛化能力差。
通过不直接模仿演示，而是利用演示来引导探索中的高层动作约束，从而提升深度强化学习在网页交互任务中的样本效率。
通过将探索与策略学习解耦，使强大的神经策略能够学习复杂且半结构化的网页任务，而不会发生过拟合。
开发一种框架，能自动从演示中归纳出工作流，并利用它们来剪枝无生产性的探索路径。

提出的方法

针对每个专家演示，该方法归纳出一个工作流格栅——即抽象的、与环境无关的动作类型序列（例如“点击文本框”、“输入文本”），以捕捉成功任务执行的结构。
通过强化学习训练一个工作流探索策略（π_w），以选择并遵循这些工作流，采样与工作流中动作语义相似的动作。
通过工作流引导探索发现的成功轨迹被存储在经验回放缓冲区中，并用于训练一个独立的、表达能力强的神经策略（π_n）以执行最终任务。
该神经策略以DOMnet实现，通过对网页的树状HTML结构进行关系推理，以处理网页界面的半结构化特性。
该框架在工作流策略训练与神经策略训练之间交替进行，利用经验回放来稳定学习并提高数据效率。
工作流基于动作相似性而非状态相似性定义，从而在不同网页状态间实现稳健的泛化。

实验结果

研究问题

RQ1工作流引导探索是否能显著提升深度强化学习在网页交互任务中的样本效率？
RQ2使用演示来约束探索（而非直接模仿动作）是否能减少过拟合并提升在未见网页状态上的泛化能力？
RQ3在网页基准测试中，工作流引导探索与行为克隆和端到端强化学习相比，在成功率和数据效率方面表现如何？
RQ4在极少监督下，基于工作流引导探索经验训练的神经策略是否能跨多种不同的网页界面实现良好泛化？
RQ5在网页强化学习中，基于动作的工作流抽象是否比基于状态的抽象更有效？

主要发现

在MiniWoB和World of Bits基准测试中，工作流引导探索相比行为克隆实现了超过100倍的样本效率提升。
该方法在World of Bits基准测试中达到了最先进性能，优于依赖直接模仿或标准强化学习的先前方法。
通过使用工作流引导探索，即使在稀疏奖励和巨大动作空间下，智能体也能更快发现成功轨迹。
基于WGE经验训练的神经策略（DOMnet）在不同网页结构和状态间表现出良好泛化能力，避免了对特定演示的过拟合。
该框架成功地将探索（由工作流引导）与策略学习（由表达性强的神经网络实现）解耦，从而实现稳健且高效的训练。
基于动作相似性定义工作流邻域的方法在网页界面任务中比基于状态相似性的方法更有效且更直观。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。