Skip to main content
QUICK REVIEW

[논문 리뷰] Learning to reinforcement learn

Jane X. Wang, Zeb Kurth‐Nelson|arXiv (Cornell University)|2016. 11. 17.
Reinforcement Learning in Robotics참고 문헌 32인용 수 379
한 줄 요약

본 논문은 한 가지 RL 알고리즘으로 학습된 순환 네트워크가 결국 두 번째로 학습된 RL 절차를 구현하여 태스크 간 빠르게 적응하도록 하는 심층 메타 강화 학습을 도입합니다. 이는 Bandit 및 MDP 설정 전반에 걸쳐 일곱 가지 개념 증명 실험을 통해 접근법을 검증합니다.

ABSTRACT

In recent years deep reinforcement learning (RL) systems have attained superhuman performance in a number of challenging task domains. However, a major limitation of such applications is their demand for massive amounts of training data. A critical present objective is thus to develop deep RL methods that can adapt rapidly to new tasks. In the present work we introduce a novel approach to this challenge, which we refer to as deep meta-reinforcement learning. Previous work has shown that recurrent networks can support meta-learning in a fully supervised context. We extend this approach to the RL setting. What emerges is a system that is trained using one RL algorithm, but whose recurrent dynamics implement a second, quite separate RL procedure. This second, learned RL algorithm can differ from the original one in arbitrary ways. Importantly, because it is learned, it is configured to exploit structure in the training domain. We unpack these points in a series of seven proof-of-concept experiments, each of which examines a key aspect of deep meta-RL. We consider prospects for extending and scaling up the approach, and also point out some potentially important implications for neuroscience.

연구 동기 및 목표

  • 대규모 데이터 요구와 태스크 전문화 너머의 심층 RL에서 빠른 적응의 필요성을 제시한다.
  • 순환 네트워크가 별도의 RL 알고리즘으로 학습되는 프레임워크를 제안한다.
  • 개념 증명 실험을 통해 학습된 RL 절차가 태스크 구조를 활용하고 새로운 태스크에 적응할 수 있음을 입증한다.
  • 적응적 탐색-활용, Bandits의 학습-투-학습, MDP의 구조 학습과 같은 측면을 조사한다.
  • 심층 메타-RL의 확장 가능성과 신경과학에 대한 가능한 함의를 논의한다.

제안 방법

  • 관련 MDP 태스크 분포 전반에 걸쳐 누적 보상을 극대화하기 위해 RL 알고리즘으로 재현재 신경망(LSTM)을 훈련한다.
  • 네트워크 입력에 이전 행동 및 수령된 보상을 포함시켜 내부 학습 다이나믹스를 유도한다.
  • 순환 다이나믹은 외부 학습 알고리즘과 다를 수 있는 별도의 RL 절차를 학습한다.
  • Entroy 정규화와 가치/정책 손실을 포함한 Advantage Actor-Critic(A2C/A3C)을 사용하여 네트워크를 훈련한다.
  • 태스크-메타 학습 과제를 여러 개 평가하여 적응적 학습 속도와 태스크 구조 활용도를 평가한다.

실험 결과

연구 질문

  • RQ1하나의 RL 알고리즘으로 학습된 순환 네트워크가 새로운 태스크에 적응하는 자체 내부 RL 전략을 개발할 수 있는가?
  • RQ2학습된 RL 절차가 태스크 구조를 이용해 다양한 환경에서 더 빠른 적응과 더 낮은 후회를 달성하는가?
  • RQ3변하는 환경에서 메타-RL이 적응적 탐색과 조정 가능한 학습 속도를 얼마나 잘 보일 수 있는가?
  • RQ4연관되고 약간 수정된 태스크 분포 사이에서 메타-RL은 일반화하는가?
  • RQ5이러한 결과가 뇌과학에서의 모델 기반/모델 프리 구분과의 병행성에 대해 어떤 함의를 갖는가?

주요 결과

  • 메타-RL 시스템은 순환 다이나믹 내에 훈련 RL 절차와 다를 수 있는 별도의 학습된 RL 알고리즘을 학습한다.
  • 학습된 RL 절차는 관찰된 태스크 통계에 따라 탐색 및 학습 속도를 조정할 수 있어 효율성이 향상된다.
  • 구조화된 밴딧 태스크에서 에이전트는 팔 간의 상관관계를 활용하여 일부 설정에서 베이지안 벤치마크에 필적하는 성과를 보인다.
  • 구조화된 분포에서의 학습은 독립 태스크에서의 성능을 해칠 수 있으며 반대도 있으며, 이는 사전 의존 학습을 시사한다.
  • 두 단계 태스크 변형에서 모델-프리 학습은 특정 분석 하에서 모델 기반 제어를 닮은 행동을 보여주어 학습 전략이 다르게 나타남을 보여준다.
  • 메타-RL은 변동성이 큰 환경에서 적응적 학습 속도를 보여주며 고정 속도 기준선 및 기존 RL 방법보다 우수하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.