QUICK REVIEW

[논문 리뷰] RL$^2$: Fast Reinforcement Learning via Slow Reinforcement Learning

Yan Duan, John Schulman|arXiv (Cornell University)|2016. 11. 09.

Reinforcement Learning in Robotics참고 문헌 6인용 수 501

한 줄 요약

RL2는 가느다란 RL 외부 루프에 의해 학습된 가중치를 가진 RNN 내부에서 빠른 RL 알고리즘을 인코딩하여 새로운 MDP에 빠르게 적응하고 고차원 작업으로의 확장을 가능하게 한다.

ABSTRACT

Deep reinforcement learning (deep RL) has been successful in learning sophisticated behaviors automatically; however, the learning process requires a huge number of trials. In contrast, animals can learn new tasks in just a few trials, benefiting from their prior knowledge about the world. This paper seeks to bridge this gap. Rather than designing a "fast" reinforcement learning algorithm, we propose to represent it as a recurrent neural network (RNN) and learn it from data. In our proposed method, RL$^2$, the algorithm is encoded in the weights of the RNN, which are learned slowly through a general-purpose ("slow") RL algorithm. The RNN receives all information a typical RL algorithm would receive, including observations, actions, rewards, and termination flags; and it retains its state across episodes in a given Markov Decision Process (MDP). The activations of the RNN store the state of the "fast" RL algorithm on the current (previously unseen) MDP. We evaluate RL$^2$ experimentally on both small-scale and large-scale problems. On the small-scale side, we train it to solve randomly generated multi-arm bandit problems and finite MDPs. After RL$^2$ is trained, its performance on new MDPs is close to human-designed algorithms with optimality guarantees. On the large-scale side, we test RL$^2$ on a vision-based navigation task and show that it scales up to high-dimensional problems.

연구 동기 및 목표

메타러닝을 통한 이전 경험 활용으로 샘플 복잡도 감소를 동기 부여합니다.
내부 학습이 활성화에 저장되고 외부 학습이 느린 RL 알고리즘을 사용하는 RNN 기반의 빠른 RL 학습자 RL2를 제안합니다.
작은 규모의 최적성과 대규모 확장성을 평가하기 위해 밴딧, 표 형태의 MDP, 비전 기반 내비게이션에서 RL2를 평가합니다.

제안 방법

정책을 (s, a, r, d)을 입력으로 받고 행동을 출력하는 GRU 기반의 RNN으로 표현합니다.
빠른 RL 알고리즘의 학습을 MDP 분포에 대한 RL 문제로 간주하고, 각 시도에서의 누적 할인 보상에 연결된 목표를 최적화합니다.
공신력 있는 학습 안정화를 위해 TRPO로 외부 루프를 학습하고 GRU 기반의 베이스라인을 사용합니다.
Trial 내의 에피소드 간에 RNN 상태를 보존하여 숨겨진 활성화에 빠른 학습 역학을 인코딩합니다.
부분적으로 관찰 가능한 환경을 POMDP 관점에서 프레이밍하고 ViZDoom과 같은 비전 기반 작업에 적용해 확장성을 입증합니다.

실험 결과

연구 질문

RQ1RL2가 밴딧 및 표 형태의 MDP와 같은 구조화된 MDP 클래스에서 이론적으로 최적 알고리즘에 근접한 성능을 달성할 수 있는가?
RQ2RL2가 비전 기반 내비게이션과 같은 고차원 작업으로 확장되는가?
RQ3다양한 수평선과 상태-행동 공간에서 기존의 베이esian 및 탐색-활용 방법과 비교하여 RL2의 성능은 어떠한가?
RQ4성능을 제한하는 외부 루프 최적화의 병목은 무엇이며 아키텍처 선택으로 이를 완화할 수 있는가?

주요 결과

Setup	Random	Gittins	TS	OTS	UCB1	ϵ-Greedy	Greedy	RL2
n = 10, k = 5	5.0	6.6	5.7	6.5	6.7	6.6	6.6	6.7
n = 10, k = 10	5.0	6.6	5.5	6.2	6.7	6.6	6.6	6.7
n = 10, k = 50	5.1	6.5	5.2	5.5	6.6	6.5	6.5	6.8
n = 100, k = 5	49.9	78.3	74.7	77.9	78.0	75.4	74.8	78.7
n = 100, k = 10	49.9	82.8	76.7	81.4	82.4	77.4	77.1	83.5
n = 100, k = 50	49.8	85.2	64.5	67.7	84.3	78.3	78.0	84.9
n = 500, k = 5	249.8	405.8	402.0	406.7	405.8	388.2	380.6	401.6
n = 500, k = 10	249.0	437.8	429.5	438.9	437.1	408.0	395.0	432.5
n = 500, k = 50	249.6	463.7	427.2	437.6	457.6	413.6	402.8	438.9

RL2는 여러 설정에서 다중 팔 밴딧 및 표 형태의 MDP에서 이론적으로 정당화된 알고리즘에 근접한 성능을 달성합니다.
대규모의 비전 기반 내비게이션에서 RL2는 에피소드 동안 축적된 시각 정보와 단기 기억을 활용하는 능력을 보여줍니다.
표 형태의 MDP에서 짧은 수평에서 RL2는 여러 베이스라인보다 우수한 성능을 낼 수 있으며, 에피소드 수가 증가함에 따라 이점이 감소합니다.
비전 내비게이션 작업에서 RL2는 첫 에피소드 대비 두 번째 에피소드에서 궤적 길이가 크게 감소하는 경향을 보여 과거 경험의 효과적 사용을 시사합니다.
학습 곡선은 무작위 초기화에 따른 변동성을 드러내며 외부 루프 최적화 및 아키텍처에 대한 민감성을 강조합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.