QUICK REVIEW

[논문 리뷰] Deep Successor Reinforcement Learning

Tejas D. Kulkarni, Ardavan Saeedi|arXiv (Cornell University)|2016. 06. 08.

Reinforcement Learning in Robotics참고 문헌 37인용 수 97

한 줄 요약

이 논문은 원시 픽셀 관측에서 빠른 적응과 원거리 보상 변화에 대한 민감성 향상 및 무작위 정책 롤아웃을 통한 하위목표 탐지 기능을 제공하는 딥 강화학습 프레임워크인 딥 슈세서러 리인포르스먼트 러닝(Deep Successor Reinforcement Learning, DSR)을 소개한다. DSR는 원시 픽셀 관측에서 엔드투엔드 학습을 가능하게 하여 원거리 보상 변화에 대한 민감성 향상과 격자세계 및 3D 탐색 환경에서 효과적인 하위목표 추출을 달성한다.

ABSTRACT

Learning robust value functions given raw observations and rewards is now possible with model-free and model-based deep reinforcement learning algorithms. There is a third alternative, called Successor Representations (SR), which decomposes the value function into two components -- a reward predictor and a successor map. The successor map represents the expected future state occupancy from any given state and the reward predictor maps states to scalar rewards. The value function of a state can be computed as the inner product between the successor map and the reward weights. In this paper, we present DSR, which generalizes SR within an end-to-end deep reinforcement learning framework. DSR has several appealing properties including: increased sensitivity to distal reward changes due to factorization of reward and world dynamics, and the ability to extract bottleneck states (subgoals) given successor maps trained under a random policy. We show the efficacy of our approach on two diverse environments given raw pixel observations -- simple grid-world domains (MazeBase) and the Doom game engine.

연구 동기 및 목표

희소하거나 지연된 보상 조건 하에서 원시 관측에서 강건한 가치 함수를 학습하는 데 도전하는 것.
표준 모델리스 강화학습의 한계인 원거리 보상 변화에 대한 가치 함수의 빠른 적응을 가능하게 하는 것.
무작위 정책 하에서 학습된 슈세서러 표현에서 의미 있는 하위목표(봉쇄 상태)를 추출하여 계층적 강화학습을 위한 기반을 마련하는 것.
원시 감각 입력에서 슈세서러 표현과 보상 함수를 동시에 학습하는 엔드투엔드 딥 러닝 프레임워크를 개발하는 것.

제안 방법

DSR는 원시 이미지를 상태 특징으로 변환하기 위해 공유된 특징 인코더(CNN)를 갖춘 딥 신경망을 사용한다.
현재 상태를 조건으로 하여 각 행동에 대한 향후 상태 점유 예측(SR)을 예측하기 위해 별도의 슈세서러 네트워크(u_α)를 활용한다.
특징에서 입력 상태를 재구성하기 위해 심층 컨volutional 디코더를 사용하여 자기지도 사전학습을 가능하게 한다.
선형 회귀기로 각 상태에서의 즉각적 보상을 예측함으로써, SR과 보상 가중치의 내적을 통한 가치 추정 Q(s,a) ≈ m_sa · w를 실현한다.
경험 재생과 확률적 경사 하강법을 통해 모델을 학습하며, SR과 보상 구성 요소의 교차 업데이트를 통해 안정성을 확보한다.
무작위 정책 하에서 수집된 SR 표현에 대해 정규화 컷( normalized cuts)을 적용하여 환경의 구조적 봉쇄점을 식별함으로써 하위목표를 추출한다.

실험 결과

연구 질문

RQ1표준 모델리스 강화학습에 비해 슈세서러 표현이 원거리 보상 변화에 대해 더 빠른 적응을 가능하게 하는가?
RQ2DSR는 복잡한 환경에서 원시 픽셀 관측에서 직접 유용한 슈세서러 표현과 보상 함수를 학습할 수 있는가?
RQ3무작위 정책 하에서 학습된 슈세서러 표현에서 신뢰할 수 있는 하위목표를 추출할 수 있는가?
RQ4값 함수를 SR과 보상으로 분해함으로써 희소 보상 환경에서 샘플 효율성과 가치 함수 민감도가 향상되는가?

주요 결과

DSR는 원거리 보상 변화 후 빠른 수렴을 보였으며, 슈세서러 표현(SR)을 고정한 채로 선형 보상 헤드의 재가중치만으로도 새로운 가치 함수에 적응했다.
격자세계 환경에서 DSR는 목표 지점의 보상 값을 1.0에서 3.0으로 상향 조정한 후 수천 번의 스텝 내에 빠르게 적응하여 보상 변화에 대한 높은 민감성을 보였다.
무작위 정책 하에서 수집된 SR 표현에 정규화 컷을 적용한 하위목표 추출이 도움이 되는 봉쇄 상태(예: Doom 환경에서의 방 입구)를 성공적으로 식별했다.
MazeBase와 VizDoom 환경에서의 시각화 결과로, 환경의 잠재적 구조를 반영하는 일관된 환경 분할을 생성했다.
DSR 프레임워크는 SR과 보상 구성 요소의 교차 최적화를 통해 안정적인 학습을 유지하였으며, 엔드투엔드 학습에서 흔히 발생하는 불안정성 문제를 피했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.