QUICK REVIEW

[논문 리뷰] Reverse Curriculum Generation for Reinforcement Learning

Carlos Florensa, David Held|arXiv (Cornell University)|2017. 07. 17.

Reinforcement Learning in Robotics참고 문헌 33인용 수 140

한 줄 요약

본 논문은 반대 학습(reverse-learning) RL 프레임워크를 도입하여 시작 상태의 커리큘럼을 자동으로 생성하고, 주어진 목표에서 점진적으로 더 어려운 시작으로 확장함으로써 시연이나 보상 설계 없이도 희박한 목표를 갖는 작업에서 효율적인 학습을 가능하게 한다.

ABSTRACT

Many relevant tasks require an agent to reach a certain state, or to manipulate objects into a desired configuration. For example, we might want a robot to align and assemble a gear onto an axle or insert and turn a key in a lock. These goal-oriented tasks present a considerable challenge for reinforcement learning, since their natural reward function is sparse and prohibitive amounts of exploration are required to reach the goal and receive some learning signal. Past approaches tackle these problems by exploiting expert demonstrations or by manually designing a task-specific reward shaping function to guide the learning agent. Instead, we propose a method to learn these tasks without requiring any prior knowledge other than obtaining a single state in which the task is achieved. The robot is trained in reverse, gradually learning to reach the goal from a set of start states increasingly far from the goal. Our method automatically generates a curriculum of start states that adapts to the agent's performance, leading to efficient training on goal-oriented tasks. We demonstrate our approach on difficult simulated navigation and fine-grained manipulation problems, not solvable by state-of-the-art reinforcement learning methods.

연구 동기 및 목표

보상 설계나 시연 없이 희박한 보상을 갖는 목표 지향적 작업을 학습하는 방법을 다룬다.
에이전트의 현재 성능에 맞춰 시작 상태 분포를 적응시키는 커리큘럼을 제안한다.
목표에서 출발해 지역적 섭동으로 시작 상태를 자동으로 확장해 생성하는 방법을 개발한다.
이전 강화학습 능력을 넘어서는 도전적인 로봇 내비게이션 및 조작 과제에서 효과를 보여준다.

제안 방법

학습 속도를 최대화하기 위해 이터레이션에 따라 달라질 수 있는 시작 상태 분포로 학습을 형식화한다.
좋은 시작은 현재 정책이 중간 수준의 성공을 달성하는 상태로 정의한다.
시드 상태에서 시작하여 행동 공간에서 짧은 브라운 운동 유사 롤아웃을 통해 근접한 시작 상태를 생성한다.
이전에 좋았던 시작 상태의 재생 버퍼를 사용하여 학습을 안정시키고 점진적 확장을 가능하게 한다.
적응적 시작 분포 위에서 TRPO(또는 어떤 온-정책 방법)로 정책을 반복적으로 학습시킨다.
일반화를 보장하기 위해 원래의 시작 상태 분포에서 진행 상황을 평가한다.

실험 결과

연구 질문

RQ1학습 중 시작 상태 분포를 적응시키는 것이 희박한 보상을 갖는 목표 지향적 과제의 학습 속도를 가속화할 수 있는가?
RQ2‘좋은 시작’에 훈련을 집중하고 목표에서 확장하는 것이 균일한 시작 상태 샘플링보다 더 빠르고 강건한 정책을 낳는가?
RQ3행동 공간에서의 브라운 운동을 통해 근접한 상태를 생성하는 것이 시작 상태 커리큘럼을 확장하는 효과적인 방법인가?
RQ4시연이나 보상 설계 없이도 이 커리큘럼을 구현하고 도전적인 조작 과제를 해결할 수 있는가?

주요 결과

적응적 시작 상태 커리큘럼은 균일한 시작 상태 샘플링과 비교했을 때 학습 속도와 최종 성능을 향상시킨다.
이 방법은 당시 최첨단 RL 방법으로는 해결할 수 없었던 내비게이션 및 미세한 조작 등을 포함한 과제의 해결을 가능하게 한다.
훈련은 목표 근처의 좋은 시작에 집중하고 바깥으로 확장되어 모델 없이 역방향 학습과 유사한 학습을 가능하게 한다.
브라운 운동 기반으로 근접 시작을 생성하는 것이 이전에 나온 모든 시작을 사용하는 것보다 더 효율적인 커리큘럼 성장을 이끈다.
좋은 시작을 겨냥하지 않고 모든 이전 시작만을 사용하는 간단한 애블레이션은 제안된 방법보다 성능이 떨어진다.
오라클 거절 샘플링 상한은 근사치를 고려할 때 이 방법이 실용적 효율성에 근접함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.