QUICK REVIEW

[논문 리뷰] Learn What Not to Learn: Action Elimination with Deep Reinforcement Learning

Tom Zahavy, Matan Haroush|arXiv (Cornell University)|2018. 09. 06.

Reinforcement Learning in Robotics참고 문헌 54인용 수 77

한 줄 요약

본 논문은 AE-DQN을 제안한다. 이는 DQN과 Action Elimination Network(AEN)을 함께 학습시켜 제거 신호(elimination signal)를 이용해 비최적 행동을 가지치고, Zork과 같은 텍스트 기반 게임과 같이 큰 행동 공간에서 학습 속도를 높인다.

ABSTRACT

Learning how to act when there are many available actions in each state is a challenging task for Reinforcement Learning (RL) agents, especially when many of the actions are redundant or irrelevant. In such cases, it is sometimes easier to learn which actions not to take. In this work, we propose the Action-Elimination Deep Q-Network (AE-DQN) architecture that combines a Deep RL algorithm with an Action Elimination Network (AEN) that eliminates sub-optimal actions. The AEN is trained to predict invalid actions, supervised by an external elimination signal provided by the environment. Simulations demonstrate a considerable speedup and added robustness over vanilla DQN in text-based games with over a thousand discrete actions.

연구 동기 및 목표

매우 큰 행동 공간에서 많은 행동이 중복되거나 무의미한 환경에서 학습 정책의 동기를 부여합니다.
제거 신호를 사용하여 허용 가능한 행동을 가지치고 샘플 복잡성을 줄이며 딥 RL의 로버스트성을 향상시키는 프레임워크를 제안합니다.
NLP 기반 작업에서 행동 값과 제거 규칙을 함께 학습하는 듀얼 네트워크 아키텍처(DQN + AEN)를 개발하고 평가합니다.

제안 방법

Action-Elimination Deep Q-Network (AE-DQN)을 도입하여 DQN과 Action Elimination Network(AEN)을 동시에 학습시킵니다.
환경에서 제공되는 elimination signal을 통해 유효하지 않은 행동을 예측하는 AEN을 사용하고, DQN에 대한 허용 가능한 행동 집합을 도출합니다.
상태와 행동을 NLP 지향의 CNN으로 표현하고, AEN의 마지막 층 활성화를 선형 맥락 밴딧의 특징으로 사용하여 제거를 결정합니다.
AEN 활성화에서 맥락 밴딧 모델을 주기적으로 업데이트하는 배치 업데이트 프레임워크를 구성하여 MDP 학습에서 제거를 분리합니다.
선형 맥락 밴딧의 농축 경계(concentration bounds)에 기반한 행동 제거 기준을 정의하여 높은 확률로 유효-행동을 보존합니다.
표준 Q-학습 업데이트와 제거 기반 행동 가지치기를 교대로 수행하는 알고리즘(AE-DQN)을 제공하고, 허용 가능한 행동에 대해 epsilon-탐색을 사용합니다.
수천 개의 행동이 있는 텍스트 기반 Zork 도메인 및 Egg Quest, Troll Quest 같은 하위 도메인에서 평가하고 vanilla DQN 및 baselines와 비교합니다.

실험 결과

연구 질문

RQ1표준 DQN과 비교했을 때 학습 공간이 큰 상태에서 학습 제거 신호를 통한 행동 제거가 학습 속도를 높이나요?
RQ2분리된 컨텍스추얼 밴딧 모델이 유효한 행동을 제거하지 않고 높은 확률로 무효한 행동을 식별할 수 있나요?
RQ3AE-DQN이 조합적으로 큰 행동 공간을 가진 텍스트 기반 게임에서 어떤 성능을 보이며, 하이퍼파라미터에 얼마나 강건한가요?
RQ4대규모 NLP-행동 환경에서 행동 제거가 샘플 효율성과 최종 성능에 미치는 영향은 무엇인가요?

주요 결과

AE-DQN은 큰 행동 공간 설정(Zork 등)에서 vanilla DQN보다 더 빨리 학습하고 누적 보상이 더 높게 달성됩니다.
행동 제거는 특히 행동 집합이 매우 큰 경우(예: Egg Troll 하위도메인) 하이퍼파라미터 설정에 대한 로버스트성을 제공합니다.
AEN 활성화를 사용해 컨텍스트 밴딧을 형성하면 비최적 행동의 신뢰할 수 있는 제거가 가능해 무효한 행동에 대한 탐색을 줄입니다.
모듈식 제거 접근 방식은 샘플 복잡성을 줄이고 충분한 제거 정확도가 달성될 때 고성능 정책으로 수렴합니다.
Zork 및 그 하위 도메인에서 AE-DQN은 이전 연구 대비 최첨단 또는 경쟁력 있는 결과를 달성하며 훨씬 더 큰 행동 템플릿을 사용한 경우도 포함됩니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.