QUICK REVIEW

[논문 리뷰] CURIOUS: Intrinsically Motivated Modular Multi-Goal Reinforcement Learning

Cédric Colas, Pierre Fournier|arXiv (Cornell University)|2018. 10. 15.

Reinforcement Learning in Robotics참고 문헌 35인용 수 42

한 줄 요약

CURIOUS는 모듈식의 목표-조건 강화학습 접근법(m-uvfa)을 내재적 학습-진행 기반 커리큘럼과 결합하여 단일 정책 내에서 다양하고 모듈식 목표를 자율적으로 선택하고 학습하도록 하여 개발적 자기조직화와 산만함 및 교란에 대한 강건성을 가능하게 한다.

ABSTRACT

In open-ended environments, autonomous learning agents must set their own goals and build their own curriculum through an intrinsically motivated exploration. They may consider a large diversity of goals, aiming to discover what is controllable in their environments, and what is not. Because some goals might prove easy and some impossible, agents must actively select which goal to practice at any moment, to maximize their overall mastery on the set of learnable goals. This paper proposes CURIOUS, an algorithm that leverages 1) a modular Universal Value Function Approximator with hindsight learning to achieve a diversity of goals of different kinds within a unique policy and 2) an automated curriculum learning mechanism that biases the attention of the agent towards goals maximizing the absolute learning progress. Agents focus sequentially on goals of increasing complexity, and focus back on goals that are being forgotten. Experiments conducted in a new modular-goal robotic environment show the resulting developmental self-organization of a learning curriculum, and demonstrate properties of robustness to distracting goals, forgetting and changes in body properties.

연구 동기 및 목표

모듈식 목표 표현을 사용하여 단일 정책 내에서 연속적이고 다양한 모듈식 목표를 학습할 수 있도록 한다.
절대 학습 진행도에 기반한 내재적 동기 메커니즘을 도입하여 모듈 및 목표 재생을 안내한다.
교차 모듈 및 교차 목표 지식 전달을 촉진하는 단일 모듈식 정책(m-uvfa)을 개발한다.
자기 조직적 커리큘럼과 강건성을 연구하기 위한 모듈식 목표 환경을 만들고 평가한다.

제안 방법

모듈식 목표 입력을 갖춘 Universal Value Function Approximators (uvfa)를 확장하여 Modular-uvfa (m-uvfa)를 형성한다.
단일 네트워크 내 다수의 목표 모듈을 다루기 위해 원-핫 모듈 서술자와 목표 마스킹을 사용한다.
오프-폴리시 방법(DDPG)과 회상형(goal substitution)과 유사한 목표 대체를 사용하여 교차 목표 학습을 수행한다.
모듈별 역량과 학습 진행을 추정하여 내재적 동기를 구현하고, epsilon-greedy 탐사를 포함한 비례 확률 매칭 정책으로 모듈을 선택한다.
경험에서 모듈 서술자와 목표를 대체하여 모듈 간 및 목표 간 재생을 활용하고, 상상된 모듈-목표 제약에 기반한 내부 보상으로 보강한다.

실험 결과

연구 질문

RQ1하나의 단일 모놀리식 정책이 모듈 입력 인코딩을 통해 다양한 모듈식 목표를 다룰 수 있는가?
RQ2절대 학습 진행도 기반의 모듈 선택이 무작위/모듈별 훈련에 비해 학습 효율성과 커리큘럼 개발에 도움이 되는가?
RQ3모듈 간 및 목표 간 재생이 지식 전달과 산만함이나 교란에 대한 강건성에 어떤 영향을 미치는가?
RQ4내재적 동기가 커리큘럼을 안내할 때 모듈식 목표 강화학습에서 어떤 자기 조직적 발달 단계가 나타나는가?
RQ5개방형 환경에서 기억상실 및 센서/신체 교란에 대해 이 접근법은 얼마나 탄력적인가?

주요 결과

m-uvfa는 평면 uvfa(Her)와 다목표 모듈-전문가 기반선(mg-me)보다 더 빠르게 여러 모듈식 목표를 학습한다.
절대 학습 진행도에 기반한 내재적 동기가 자기 조직적 학습 단계(발달 커리큘럼)의 연속을 만들어낸다.
Curious는 망각 및 센서 교란에 대한 회복력이 있으며, 교란 후 기준선 대비 더 빠르게 회복한다.
LP-가이드 재생을 사용할 때 무작위 목표 선택에 비해 산만한 모듈이 증가해도 성능 저하가 덜하다.
모듈 기반의 내재적 선택은 학습 가능한 목표에 자원을 할당하고 현재 해결 불가능하거나 지나치게 어려운 목표에서 벗어나도록 돕는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.