QUICK REVIEW

[논문 리뷰] Eigenoption Discovery through the Deep Successor Representation

Marlos C. Machado, Clemens Rosenbaum|arXiv (Cornell University)|2017. 10. 30.

Reinforcement Learning in Robotics참고 문헌 26인용 수 61

한 줄 요약

이 논문은 확률적 환경과 표현 학습에 Eigenoption 발견을 확장하여 successor representation을 활용해 proto-value functions를 학습하고, 원시 픽셀 입력에서 eigenoptions를 가능하게 하며 탐험을 개선합니다.

ABSTRACT

Options in reinforcement learning allow agents to hierarchically decompose a task into subtasks, having the potential to speed up learning and planning. However, autonomously learning effective sets of options is still a major challenge in the field. In this paper we focus on the recently introduced idea of using representation learning methods to guide the option discovery process. Specifically, we look at eigenoptions, options obtained from representations that encode diffusive information flow in the environment. We extend the existing algorithms for eigenoption discovery to settings with stochastic transitions and in which handcrafted features are not available. We propose an algorithm that discovers eigenoptions while learning non-linear state representations from raw pixels. It exploits recent successes in the deep reinforcement learning literature and the equivalence between proto-value functions and the successor representation. We use traditional tabular domains to provide intuition about our approach and Atari 2600 games to demonstrate its potential.

연구 동기 및 목표

계층화된 강화 학습을 위한 효과적인 옵션(eigenoptions)을 자율적으로 발견하는 데에 대한 동기 부여와 도전 과제 해결.
확률적 환경에서 확산 정보 흐름을 학습하는 표현 학습 접근법 도입.
proto-value 함수와 successor representation의 동등성을 활용하여 eigenoption 발견을 안내.
_raw 픽셀 입력에서 SR을 추정하고 상태 표현을 학습하는 신경망 아키텍처 개발.
직관을 위한 표 형식 도메인에서의 시연과 raw 픽셀로의 가능성 확인을 위한 Atari 2600 게임에서의 평가.

제안 방법

환경의 확산 정보 흐름(DIF) 표현으로부터 유도된 eigenpurpose를 통해 eigenoptions를 정의합니다.
SR을 활용해 DIF 모델을 추정하고 PVF와의 등가성을 활용합니다.
표 형식의 경우 샘플로부터 SR을 학습하고 결과 행렬에서 eigenpurpose를 추출하여 eigenoptions의 시작/initiation, 정책, 종료 종료 집합을 정의합니다.
원시 픽셀 입력에서 SR을 추정하기 위한 신경망 학습과 재구성 보조 과제, 잠재 특징을 얻기 위한 프로젝터를 포함한 딥러닝 확장.
SR 출력으로부터 eigenpurpose를 계산하고(SR 관찰에서 임의 정책 아래의 행렬의 오른쪽 고유 벡터로) 해당 고유 보상을 최대화하는 옵션을 학습합니다.
1단계 탐욕적 한걸음 선탐색으로 Atari 게임에서 eigenoptions를 정성적으로 평가하여 의미 있는 목표 지향적 행동을 시각화합니다.

실험 결과

연구 질문

RQ1확률적 환경에서 상태를 열거하거나 수작업 특징을 사용하지 않고도 eigenoptions를 발견할 수 있는가?
RQ2원시 픽셀 입력으로부터 SR을 학습하면 탐험과 제어에 유용한 eigenoptions를 생성하는가?
RQ3SR 기반 eigenoptions는 агент의 행동을 안내하는 PVF 기반 eigenoptions와 얼마나 근접한가?
RQ4SR 기반 옵션 발견 파이프라인을 통합하는 것이 primitive actions만 사용하는 것에 비해 Atari 게임에서 탐험과 학습을 개선하는가?

주요 결과

SR 기반 접근 방식은 사전에 정의된 상태 표현이 필요 없이 확률적 환경에서 eigenoptions를 발견할 수 있음을 보여줍니다.
SR 관찰로부터 도출된 eigenpurpose가 표 형식 방에서의 탐색 시간을 감소시키고 Atari 실험에서 의미 있는 목표 지향적 행동으로 이어집니다.
표 형식 도메인에서 SR로 학습된 eigenoptions는 PVF 기반 고유 벡터에 근접하고 Q-학습과 결합될 때 학습을 개선합니다.
Atari 실험에서 딥 SR 네트워크는 원시 픽셀로부터 잠재 표현을 학습하고 목적 의식적인 eigenoptions를 생성하여 에이전트를 특정 화면 위치로 유도합니다.
제한된 샘플에서 SR이 추정되더라도 eigenoptions는 더 밀집된 내부 보상과 선호 탐험을 보여줍니다.
SR 추정이 불완전하더라도 접근 방식은 여전히 효과적이며 표현 학습 품질에 대한 강건성을 나타냅니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.