[논문 리뷰] Meta Learning Shared Hierarchies
MLSH 학습은 작업 분포 전체에 걸쳐 공유 서브-정책(프리미티브)의 집합을 학습하고 마스터 정책이 이러한 프리미티브를 전환하여 새로운 작업에 빠르게 적응하도록 학습 샘플 효율성을 높인다.
We develop a metalearning approach for learning hierarchically structured policies, improving sample efficiency on unseen tasks through the use of shared primitives---policies that are executed for large numbers of timesteps. Specifically, a set of primitives are shared within a distribution of tasks, and are switched between by task-specific policies. We provide a concrete metric for measuring the strength of such hierarchies, leading to an optimization problem for quickly reaching high reward on unseen tasks. We then present an algorithm to solve this problem end-to-end through the use of any off-the-shelf reinforcement learning method, by repeatedly sampling new tasks and resetting task-specific policies. We successfully discover meaningful motor primitives for the directional movement of four-legged robots, solely by interacting with distributions of mazes. We also demonstrate the transferability of primitives to solve long-timescale sparse-reward obstacle courses, and we enable 3D humanoid robots to robustly walk and crawl with the same policy.
연구 동기 및 목표
- 관련 작업 분포에서 서브정책(프리미티브)을 재사용하여 빠르게 학습하는 것의 동기를 부여한다.
- 마스터 정책이 공유 서브정책 중에서 선택하여 빠른 적응을 이끌어내는 계층 구조를 정의한다.
- 새로운 작업에서 빠른 학습을 촉진하는 계층 구조를 형성하는 최적화 목표를 정식화한다.
- 서브정책을 학습하기 위해 워밍업과 공동 업데이트 단계를 번갈아 수행하는 엔드투엔드 MLSH 알고리즘을 제안한다.
- 2D, 3D 및 물리 기반 환경에서 전달 및 확장성을 입증한다.
제안 방법
- 공유된 서브정책 세트를 \u0003a8phi\u0003bc 로 정의; 각 서브정책은 프리미티브 정책을 정의한다.
- 마스터 정책 \u0003b8 를 사용하여 매 N 타임스텝마다 어떤 서브정책을 활성화할지 선택한다.
- 워밍업 단계는 서브정책을 고정한 채 마스터 정책을 최적화한다.
- 공동 업데이트 단계는 환경으로부터의 경험을 사용하여 마스터 정책과 서브정책을 모두 업데이트한다.
- 마스터 정책의 결정은 느린 타임스케일의 행동으로 취급하고 서브정책은 실행 가능한 프리미티브로 간주한다.
실험 결과
연구 질문
- RQ1메타학습 프레임워크가 분포에서 의미 있고 재사용 가능한 서브정책을 발견할 수 있는가?
- RQ2MLS H 학습이 다양한 환경에서 단일 공유 정책이나 비계층적 baselines보다 성능이 우수한가?
- RQ3발견된 프리미티브가 더 긴 시퀀스 또는 희박 보상 작업으로 전달되는가?
- RQ4워밍업 기간이 서브정책의 품질과 학습 속도에 어떤 영향을 미치는가?
- RQ5MLS H가 복잡한 3D 물리 태스크로 확장되어 새로운 보행 행위를 가능하게 하는가?
주요 결과
- MHLS 는 미로 같은 작업 및 3D 보행 시나리오에서 의미 있는 방향 이동 프리미티브를 학습한다.
- 마스터 정책 학습이 서브정책으로 학습될 때 단일 정책을 처음부터 학습하는 것보다 학습 속도를 가속화한다.
- MLSH 는 독자 PPO가 희박 보상에서 학습하기 어려운 경우에도 학습된 프리미티브를 희박 보상 장애물 코스 작업으로 전달한다.
- 물리 환경에서 다양한 서브정책이 등장하여 같은 프리미티브 세트로 걷기 및 기기동 행동을 가능하게 한다.
- 해결 불가능한 희박 환경에서 MLSH 는 서브정책 간 탐색을 가능하게 하여 전달된 프리미티브를 통해 보상을 회복하는 것을 돕는다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.