QUICK REVIEW

[논문 리뷰] Reinforcement Learning on Web Interfaces Using Workflow-Guided Exploration

Evan Zheran Liu, Kelvin Guu|arXiv (Cornell University)|2018. 02. 24.

Data Stream Mining Techniques인용 수 31

한 줄 요약

이 논문은 웹 인터페이스에서 샘플 효율적인 학습을 가속화하기 위해 전문가의 시연를 활용해 환경에 종속되지 않는 고수준의 워크플로우를 유도하는 강화학습 프레임워크인 워크플로우 가이드드 응용(WGE)을 제안한다. 이러한 워크플로우는 탐색을 제약함으로써 탐색을 유도하며, 월드 오브 비츠와 미니워브와 같은 웹 벤치마크 작업에서 행동 복제보다 100배 이상 높은 샘플 효율성을 달성한다.

ABSTRACT

Reinforcement learning (RL) agents improve through trial-and-error, but when reward is sparse and the agent cannot discover successful action sequences, learning stagnates. This has been a notable problem in training deep RL agents to perform web-based tasks, such as booking flights or replying to emails, where a single mistake can ruin the entire sequence of actions. A common remedy is to "warm-start" the agent by pre-training it to mimic expert demonstrations, but this is prone to overfitting. Instead, we propose to constrain exploration using demonstrations. From each demonstration, we induce high-level "workflows" which constrain the allowable actions at each time step to be similar to those in the demonstration (e.g., "Step 1: click on a textbox; Step 2: enter some text"). Our exploration policy then learns to identify successful workflows and samples actions that satisfy these workflows. Workflows prune out bad exploration directions and accelerate the agent's ability to discover rewards. We use our approach to train a novel neural policy designed to handle the semi-structured nature of websites, and evaluate on a suite of web tasks, including the recent World of Bits benchmark. We achieve new state-of-the-art results, and show that workflow-guided exploration improves sample efficiency over behavioral cloning by more than 100x.

연구 동기 및 목표

무료 보상 문제를 해결하기 위해, 에이전트가 무작위 탐색을 통해 성공적인 액션 시퀀스를 발견하기 어려운 웹 기반 강화학습 환경에서의 과제를 다루는 것.
다양한 웹 상태 간에 일반화가 잘 되지 않는 직접적인 행동 복제를 피하여, 애널로지 학습에서의 과적합 문제를 해결하는 것.
시뮬레이션된 행동을 그대로 모방하기보다는, 높은 수준의 액션 제약 조건을 통해 탐색을 유도함으로써, 웹 상호작용을 위한 딥 강화학습의 샘플 효율성을 향상시키는 것.
탐색과 정책 학습을 분리함으로써, 강력한 신경 정책이 복잡한 반구조화된 웹 작업을 과적합 없이 학습할 수 있도록 하는 것.
시범 시연에서 자동으로 워크플로우를 유도하고, 이를 사용해 생산성이 떨어지는 탐색 경로를 잘라내는 프레임워크를 개발하는 것.

제안 방법

각 전문가 시범 시연에 대해, 성공적인 작업 실행의 구조를 반영하는 추상적이고 환경에 종속되지 않는 액션 유형 시퀀스(예: '텍스트 박스 클릭', '텍스트 입력')로 구성된 워크플로우 라티스를 유도한다.
강화학습을 통해 워크플로우 탐색 정책(π_w)을 훈련시켜, 워크플로우에 포함된 액션과 의미적으로 유사한 액션을 선택하고 따르도록 한다.
워크플로우 가이드드 탐색을 통해 발견된 성공적인 트레이젝터리는 재생 버퍼에 저장되고, 최종 작업 실행을 위한 별도의 표현력 있는 신경 정책(π_n)을 훈련하는 데 사용된다.
신경 정책는 DOMnet로 구현되며, 웹 페이지의 트리 구조화된 HTML에 대한 관계적 추론을 수행하여 웹 인터페이스의 반구조화된 성격을 처리한다.
경험 재생을 사용하여 학습을 안정화하고 데이터 효율성을 향상시키며, 워크플로우 정책 훈련과 신경 정책 훈련을 번갈아가며 수행한다.
워크플로우는 상태 유사도가 아닌 액션 유사도 기반으로 정의되며, 이는 다양한 웹 페이지 상태 간에 강건한 일반화를 가능하게 한다.

실험 결과

연구 질문

RQ1워크플로우 가이드드 탐색은 웹 상호작용 작업을 위한 딥 강화학습에서 샘플 효율성을 크게 향상시키는가?
RQ2행동를 직접 모방하는 대신, 시범을 통해 탐색을 제약함으로써 과적합을 줄이고, 미리 보지 않은 웹 상태에서의 일반화 능력을 향상시키는가?
RQ3행동 복제와 종단 간 강화학습에 비해 워크플로우 가이드드 탐색은 웹 벤치마크에서 성공률과 데이터 효율성 측면에서 어떻게 비교되는가?
RQ4워크플로우 가이드드 탐색에서 유도된 경험을 기반으로 훈련된 신경 정책는 최소한의 감독으로 다양한 웹 인터페이스 간에 일반화가 가능한가?
RQ5액션 기반 워크플로우 추상화가 웹 RL에서 탐색을 유도하는 데 있어 상태 기반 추상화보다 더 효과적인가?

주요 결과

워크플로우 가이드드 탐색은 미니워브와 월드 오브 비츠 벤치마크에서 행동 복제보다 100배 이상 높은 샘플 효율성을 달성한다.
이 방법은 월드 오브 비츠 벤치마크에서 최신 기술 수준의 성능을 달성하며, 직접 모방에 의존하거나 표준 강화학습에 의존하는 이전 방법들을 능가한다.
워크플로우를 통해 탐색을 유도함으로써, 조건이 엄격하고 액션 공간이 큰 환경에서도 성공적인 트레이젝터리를 훨씬 빨리 발견할 수 있다.
WGE에서 경험을 기반으로 훈련된 신경 정책(DOMnet)은 다양한 웹 페이지 구조와 상태 간에 잘 일반화되며, 특정 시범에 과적합되지 않는다.
이 프레임워크는 탐색(워크플로우에 의해 유도됨)과 정책 학습(표현력 있는 신경망)을 성공적으로 분리함으로써 강건하고 효율적인 학습을 가능하게 한다.
액션 유사도를 기반으로 워크플로우 이웃을 정의하는 것이 상태 유사도보다 웹 인터페이스 작업에 더 효과적이고 직관적임을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.