QUICK REVIEW

[논문 리뷰] Meta-Reinforcement Learning of Structured Exploration Strategies

Abhishek Gupta, Russell Mendonca|arXiv (Cornell University)|2018. 02. 20.

Reinforcement Learning in Robotics참고 문헌 30인용 수 180

한 줄 요약

MAESN을 소개하는 gradient 기반 메타-RL 방법으로, 학습된 잠재 공간을 통해 구조화되고 시간적으로 일관된 탐사를 학습하여 새로운 작업에 빠르게 적응할 수 있게 합니다. 로봇공학 및 보행(locomo tion) 작업 전반에서 이전의 메타-RL 방법과 작업-무관 탐사에 비해 탐사와 적응이 개선됨을 보여줍니다.

ABSTRACT

Exploration is a fundamental challenge in reinforcement learning (RL). Many of the current exploration methods for deep RL use task-agnostic objectives, such as information gain or bonuses based on state visitation. However, many practical applications of RL involve learning more than a single task, and prior tasks can be used to inform how exploration should be performed in new tasks. In this work, we explore how prior tasks can inform an agent about how to explore effectively in new situations. We introduce a novel gradient-based fast adaptation algorithm -- model agnostic exploration with structured noise (MAESN) -- to learn exploration strategies from prior experience. The prior experience is used both to initialize a policy and to acquire a latent exploration space that can inject structured stochasticity into a policy, producing exploration strategies that are informed by prior knowledge and are more effective than random action-space noise. We show that MAESN is more effective at learning exploration strategies when compared to prior meta-RL methods, RL without learned exploration strategies, and task-agnostic exploration methods. We evaluate our method on a variety of simulated tasks: locomotion with a wheeled robot, locomotion with a quadrupedal walker, and object manipulation.

연구 동기 및 목표

메타-RL에서 여러 관련 선행 과제를 활용하여 탐사를 개선하도록 동기를 부여합니다.
탐사에 구조화된 확률적 요소를 주입하는 gradient 기반 적응 방법을 개발합니다.
학습된 잠재 탐사 공간과 정책 그래디언트 업데이트를 통해 새로운 작업에 빠르게 적응할 수 있게 합니다.
구조화된 노이즈가 무작위 행동 공간 노이즈보다 더 일관된 탐사를 이끈다는 것을 보여줍니다.
다양한 로봇 도메인에서 MAESN을 기존의 메타-RL 방법 및 작업-무관 탐사와 비교합니다.

제안 방법

구조화된 잠재 공간 노이즈와 MAML-스타일 그래디언트 적응을 결합한 MAESN을 제안합니다.
탐사를 학습 가능한 가우시안에서 샘플링된 에피소드별 잠재 변수 z에 조건부로 설정된 정책으로 표현하여 시간적으로 일관된 탐사를 가능하게 합니다.
정책 매개변수와 각 작업의 잠재 매개변수를 사후 업데이트 보상을 최대화하도록 메타-트레이닝하고, 단위 가우시안 사전분포에 대한 KL 정규화를 적용합니다.
Inner 루프: 잠재 매개변수 및 필요에 따라 정책 매개변수를 정책 그래디언트를 통해 업데이트; Outer 루프: TRPO를 사용한 메타 업데이트.
적응 중 z 샘플링을 역전파하기 위해 재매개화 혹은 우도-비율 방법을 사용합니다.
조작(manipulation) 및 보행(locomotion) 작업에서 MAML, RL2, 잠재 공간 베이스라인 및 처음부터 학습(training-from-scratch)과 비교하여 평가합니다.

실험 결과

연구 질문

RQ1메타학습된 구조화된 탐사 전략이 새로운 희소 보상 작업에 대해 일관된 탐사와 빠른 적응을 가능하게 할 수 있는가?
RQ2MAESN이 학습 탐사에서 이전의 메타-RL 방법들(예: MAML, RL2) 및 잠재 공간 기반 베이스라인보다 우수한가?
RQ3MAESN으로 학습된 정책이 어떤 종류의 탐사 전략을 보이며, 베이스라인과 시각적으로 어떻게 비교되는가?
RQ4MAESN의 어떤 구성요소들(잠재 공간, 메타-트레이닝 목표, 그래디언트 업데이트)이 성능에 결정적인가?

주요 결과

MAESN은 에피소드별 잠재 변수에 조건화된 행동으로 시간적으로 일관된 탐사를 학습하여 베이스라인 대비 탐사를 향상시킵니다.
MAESN은 희박한 보상을 가진 새로운 작업에 빠르게 적응하며 여러 도메인에서 MAML 및 RL2를 능가합니다.
잠재 공간 메타 트레이닝은 효과적인 적응을 가능하게 하며, 잠재 공간만을 이용한 접근법을 능가합니다.
MAESN의 탐사 궤적은 무작위 탐사나 MAML보다 작업 분포에 더 잘 맞는 일관된 행동을 포함합니다.
사전 업데이트의 잠재 매개변수는 사전에 가까운 분포로 수렴하고, 사후 업데이트의 매개변수는 작업 특화 영역으로 이동하여 효과적인 적응을 가능하게 합니다.
구조화된 노이즈는 시간 불변의 행동 노이즈를 넘어 다양한 작업 관련 전략을 탐색하는 데 필수적입니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.