QUICK REVIEW

[논문 리뷰] Transfer in Deep Reinforcement Learning Using Successor Features and Generalised Policy Improvement

André Barreto, Diana Borsa|arXiv (Cornell University)|2019. 01. 30.

Reinforcement Learning in Robotics참고 문헌 28인용 수 38

한 줄 요약

본 논문은 SF( successor features )와 GPI( generalized policy improvement ) 전이 프레임워크를 더 넓은 보상 설정에 일반화하여 보상을 온라인 심층 전이의 특징으로 사용할 수 있음을 보이고, 3D 1인칭 환경에서 보지 못한 태스크에 거의 즉시 전이되는 것을 시연하며, 정책이 지속적으로 재사용되도록 학습한다.

ABSTRACT

The ability to transfer skills across tasks has the potential to scale up reinforcement learning (RL) agents to environments currently out of reach. Recently, a framework based on two ideas, successor features (SFs) and generalised policy improvement (GPI), has been introduced as a principled way of transferring skills. In this paper we extend the SFs & GPI framework in two ways. One of the basic assumptions underlying the original formulation of SFs & GPI is that rewards for all tasks of interest can be computed as linear combinations of a fixed set of features. We relax this constraint and show that the theoretical guarantees supporting the framework can be extended to any set of tasks that only differ in the reward function. Our second contribution is to show that one can use the reward functions themselves as features for future tasks, without any loss of expressiveness, thus removing the need to specify a set of features beforehand. This makes it possible to combine SFs & GPI with deep learning in a more stable way. We empirically verify this claim on a complex 3D environment where observations are images from a first-person perspective. We show that the transfer promoted by SFs & GPI leads to very good policies on unseen tasks almost instantaneously. We also describe how to learn policies specialised to the new tasks in a way that allows them to be added to the agent's set of skills, and thus be reused in the future.

연구 동기 및 목표

강화 학습에서의 전이를 촉진하여 에이전트를 복잡한 환경으로 확장한다.
보상이 특징의 고정된 선형 조합으로 표현될 수 있어야 한다는 요구사항을 완화한다.
보상 자체가 표현력 손실 없이 향후 과제의 특징으로 작용할 수 있음을 보인다.
도전적인 3D 환경에서 온라인 및 딥 러닝 호환 전이를 시연하고 새로운 기술의 지속적 학습을 가능하게 한다.

제안 방법

원래의 선형 특징 설정을 넘는 환경으로 SF & GPI 프레임워크를 확장하고, S, A, p, 감마를 공유하는 넓은 M을 정의한다.
임의의 보상 함수에 대해 전이된 정책에 대한 이론적 보장(정리 1)을 제시한다.
사전 정의된 특징 매핑의 필요성을 보상 함수 자체를 특징으로 사용함으로써 대체하고, 확장 가능한 딥 러닝 통합을 가능하게 한다.
온라인으로 SF를 학습하고 적용하며, 새로운 과제에 대해 정책 특수화와 GPI를 결합하는 알고리즘(SF & GPI with Q-learning, Algorithm 1)을 제안한다.
새로운 과제별 정책으로 SF 기초를 지속적으로 확장하여 점점 커지는 기술 세트를 학습하고 재사용하는 방법을 설명한다.

실험 결과

연구 질문

RQ1고정된 특징 범위를 넘어 보상 함수가 다른 태스크들 간에 SF & GPI가 성능 보장을 제공할 수 있는가?
RQ2보상 자체가 특징으로 사용되어 딥 RL에서 확장 가능하고 온라인 전이를 지원할 수 있는가?
RQ3SF & GPI가 고차원 이미지 기반 3D 환경에서 보지 못한 과제로의 효과적인 전이를 촉진하는가?
RQ4새로운 과제에 특화된 정책을 어떻게 학습하고 확장되는 기술 세트에 지속 학습을 위해 통합할 수 있는가?

주요 결과

확립된 경계(정리 1)로 확장된 환경 M에서 전이된 정책의 성능이 보상 차이 및 근사 오차를 포함하는 항들에 의해 제어됨을 보인다.
보상을 특징으로 사용할 때의 SF는 실제 가치 함수가 되어 딥 러닝 및 온라인 업데이트와의 직관적 통합을 가능하게 한다.
3D 1인칭 환경에서의 실험 결과는 SF & GPI 하에 보지 못한 과제로의 전이가 거의 즉시 일어남을 보여준다.
이 프레임워크는 에이전트의 기술 세트에 추가되어 지속적으로 재사용될 수 있는 과제별 정책 학습을 지원한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.