QUICK REVIEW

[논문 리뷰] Fast Task Inference with Variational Intrinsic Successor Features

Steven Hansen, Will Dabney|arXiv (Cornell University)|2019. 06. 12.

Reinforcement Learning in Robotics참고 문헌 42인용 수 22

한 줄 요약

이 논문은 변분 내재적 성공자 기능(VISR)을 제안하며, 변분 내재적 제어와 성공자 기능을 융합하여 무 supervision 전처리 이후 빠르고 일반화 가능한 작업 추론을 가능하게 하는 새로운 강화학습 알고리즘이다. 행동 상호정보량 최대화를 통한 제어 가능한 특징 학습과 선형 보상 회귀를 활용한 빠른 정책 적응을 통해 VISR는 12개의 Atari 게임에서 인간 수준의 성능을 달성하며, 지도 학습 미세조정이나 광범위한 상호작용을 사용하는 모든 기준 모델을 능가한다.

ABSTRACT

It has been established that diverse behaviors spanning the controllable subspace of an Markov decision process can be trained by rewarding a policy for being distinguishable from other policies \citep{gregor2016variational, eysenbach2018diversity, warde2018unsupervised}. However, one limitation of this formulation is generalizing behaviors beyond the finite set being explicitly learned, as is needed for use on subsequent tasks. Successor features \citep{dayan93improving, barreto2017successor} provide an appealing solution to this generalization problem, but require defining the reward function as linear in some grounded feature space. In this paper, we show that these two techniques can be combined, and that each method solves the other's primary limitation. To do so we introduce Variational Intrinsic Successor FeatuRes (VISR), a novel algorithm which learns controllable features that can be leveraged to provide enhanced generalization and fast task inference through the successor feature framework. We empirically validate VISR on the full Atari suite, in a novel setup wherein the rewards are only exposed briefly after a long unsupervised phase. Achieving human-level performance on 14 games and beating all baselines, we believe VISR represents a step towards agents that rapidly learn from limited feedback.

연구 동기 및 목표

행동 상호정보량(BMI) 최대화를 통해 다양한 행동을 학습하는 무 supervision RL 방법의 낮은 일반화 능력과 느린 추론 문제를 해결하기 위해.
선형으로 파arameter화된 보상 함수가 필요한 선구자 기능(SFs)에 적합한 특징을 자동으로 학습하는 열린 문제를 해결하기 위해.
BMI와 SFs를 통합한 프레임워크를 구축하여, 최소한의 보상 피드백으로도 새로운 작업에 대해 신속하고 데이터 효율적인 적응을 가능하게 하기 위해.
에이전트가 장기간의 무 supervision 단계를 거친 후 짧은 보상 노출만을 경험하는 현실적인 환경에서 방법을 검증하기 위해.

제안 방법

VISR는 변분 추론을 통해 분리되고 제어 가능한 잠재 공간을 학습하며, 잠재 코드와 상태 방문 분포 간의 상호정보량을 최대화한다.
이 잠재 공간은 선구자 기능(SFs)을 정의하는 데 사용되며, 정책 하에서의 향후 상태 방문의 기대값을 나타내어 가치 함수의 선형 근사화를 가능하게 한다.
희소 보상 신호로부터 최적의 작업 벡터(즉, 정책 잠재 코드)를 추론하기 위해 선형 보상 회귀 문제를 해결하여 재학습 없이도 빠른 추론을 가능하게 한다.
BMI로 학습된 특징은 자연스럽게 SFs에 적합한데, 이는 제어 가능한 의미 있는 행동을 포착하기 때문이다.
작업 추론은 다양한 잠재 코드 하에서 수집된 상태 방문 데이터에 대해 선형 회귀를 수행함으로써 수행되며, 비용이 많이 드는 검색이나 재학습을 피한다.
이 방법은 유추된 정책을 사용해 어떤 RL 알고리즘이라도 웜스타트할 수 있으며, 성능 향상을 위한 추가 미세조정이 가능하다.

실험 결과

연구 질문

RQ1행동 상호정보량 최대화를 통해 선구자 기능에 적합한 특징을 학습시킬 수 있는가? 이는 신속한 전이 학습을 가능하게 하는가?
RQ2BMI와 선구자 기능을 융합하면 표준 BMI 또는 SF 전용 방법에 비해 더 신속하고 일반화 능력이 뛰어난 작업 추론이 가능한가?
RQ3VISR는 장기간의 무 supervision 단계 이후 짧은 보상 노출만으로도 몇 단계의 RL 설정에서 뛰어난 성능을 낼 수 있는가?
RQ4잠재 공간에서 무작위 또는 완전 탐색보다 선형 보상 회귀가 작업 추론에 더 효과적인가?
RQ5샘플 효율성과 최종 성능 측면에서 VISR은 지도 학습 미세조정 및 궁금증 기반 방법과 비교해 어떻게 성능를 내는가?

주요 결과

VISR는 57개의 Atari 게임 중 12개에서 무 supervision 전처리 이후 짧은 보상 노출만으로도 인간 수준의 성능을 달성한다.
선형 보상 회귀를 통한 작업 추론은 57개 게임 중 41개에서 무작위 검색보다 뛰어나며, 중앙값 수익률은 8.99로 무작위 검색의 3.45보다 높다.
57개 게임 전반의 평균 인간 정규화 수익률은 보상 회귀를 사용할 경우 109.16이며, 무작위 검색을 사용할 경우 63.57로 동일한 데이터를 사용한 결과이다.
VISR는 동일한 몇 단계의 RL 설정에서 지도 학습 미세조정 및 궁금증 기반 탐색을 사용하는 모든 기준 모델을 능가한다.
Pathak 등(2017)의 26개 게임에서 VISR은 단지 100만 개의 전이만으로 DQN의 성능을 따라하거나 초월했으며, DQN은 VISR의 성능를 따라잡기 위해 2억 개의 전이가 필요했다.
VISR의 완전히 무 supervision 버전은 지도 학습 기반 기준 모델에 비해 성능이 열 劣하므로, 전처리 단계에서의 탐색 개선 여지가 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.