[논문 리뷰] The MineRL 2019 Competition on Sample Efficient Reinforcement Learning using Human Priors
본 논문은 인간 시연을 활용한 샘플 효율적 강화학습을 촉진하기 위해 Minecraft 환경에서 MineRL 대회와 데이터셋을 제안하고, 주된 ObtainDiamond 태스크와 일반화 능력을 평가하기 위한 엄격한 자원 제약 하의 held-out 평가를 수행한다.
Though deep reinforcement learning has led to breakthroughs in many difficult domains, these successes have required an ever-increasing number of samples. As state-of-the-art reinforcement learning (RL) systems require an exponentially increasing number of samples, their development is restricted to a continually shrinking segment of the AI community. Likewise, many of these systems cannot be applied to real-world problems, where environment samples are expensive. Resolution of these limitations requires new, sample-efficient methods. To facilitate research in this direction, we introduce the MineRL Competition on Sample Efficient Reinforcement Learning using Human Priors. The primary goal of the competition is to foster the development of algorithms which can efficiently leverage human demonstrations to drastically reduce the number of samples needed to solve complex, hierarchical, and sparse environments. To that end, we introduce: (1) the Minecraft ObtainDiamond task, a sequential decision making environment requiring long-term planning, hierarchical control, and efficient exploration methods; and (2) the MineRL-v0 dataset, a large-scale collection of over 60 million state-action pairs of human demonstrations that can be resimulated into embodied trajectories with arbitrary modifications to game state and visuals. Participants will compete to develop systems which solve the ObtainDiamond task with a limited number of samples from the environment simulator, Malmo. The competition is structured into two rounds in which competitors are provided several paired versions of the dataset and environment with different game textures. At the end of each round, competitors will submit containerized versions of their learning algorithms and they will then be trained/evaluated from scratch on a hold-out dataset-environment pair for a total of 4-days on a prespecified hardware platform.
연구 동기 및 목표
- 환경 샘플을 줄이기 위해 인간 시연을 활용하는 샘플 효율적 RL 방법의 개발 필요성을 고취한다.
- 도전적이고 계층적으로 구성된 Minecraft ObtainDiamond 태스크를 소개한다.
- 90만 명 이상의 인간 시연을 포함한 MineRL-v0 데이터셋을 공개하여 구현체가 구현체가 포함된 에이전트의 모방 학습을 가능하게 한다.
- 고정된 계산 예산에서 공정한 벤치마킹을 보장하기 위한 두 차례의 대회 구조와 hold-out 평가를 제공한다.
제안 방법
- 주요 ObtainDiamond 태스크를 정의하여 Minecraft에서 장기 계획 및 탐색을 요구한다.
- 풍부한 주석과 계층적 라벨이 포함된 상태-행동 궤적의 대규모 MineRL-v0 데이터셋을 제공한다.
- 다양한 텍스처와 조명을 갖춘 시연을 렌더링하여 환경 간 강인한 평가를 가능하게 한다.
- 참가자에게 베이스라인 구현 및 오픈소스 도구(Gym 인터페이스, 데이터 로더, Docker)를 제공한다.
- 샘플 효율성 평가를 강제하기 위해 AICrowd 오케스트레이션과 고정된 계산 환경을 활용한다.
실험 결과
연구 질문
- RQ1모방 학습과 인간 priors가 복잡하고 희소 보상 문제를 해결하는 데 필요한 환경 샘플 수를 현저히 줄일 수 있는가?
- RQ2Minecraft와 같이 계층적이고 구현된 도메인에서 대규모 인간 시연 데이터 세트를 강화학습 방법이 얼마나 잘 활용하는가?
- RQ3고정된 계산 예산 하에서 다른 환경 텍스처 및 시각적 요소가 학습 효율성 및 정책 성능에 미치는 영향은 무엇인가?
- RQ4ObtainDiamond에서 엄격한 샘플 및 계산 제약 하에 베이스라인 RL 방법이 인간 성능과 얼마나 비교되는가?
주요 결과
| 마일스톤 | 보상 | 마일스톤 | 보상 |
|---|---|---|---|
| 1 | 32 | ||
| 2 | 32 | ||
| 3 | 4 | ||
| 4 | 64 | ||
| 5 | 128 | ||
| 6 | 256 | ||
| 7 | 1024 |
- 인간 데이터를 활용하는 방법이 다양한 환경에서 샘플 효율성을 개선한다는 예비 결과가 나타났다.
- 제시된 과제에서 인간이 모든 테스트된 RL 방법보다 우수하며, ObtainDiamond 및 관련 과제에서 긴 기간의 크레딧 할당의 어려움을 강조한다.
- Treechop, Navigate (Sparse) 및 기타 환경은 RL 베이스라인과 인간 성능 간에 큰 차이가 있음을 보여준다.
- 전문가 시연은 특히 탐색이 어려운 설정에서 적은 샘플로 더 높은 보상을 가능하게 한다.
- 행동복제, PreDQN과 같은 모방 기반 베이스라인 및 사전 학습 변형이 비사전 학습 RL 방법에 비해 잠재적 이점을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.