QUICK REVIEW

[논문 리뷰] Leveraging Procedural Generation to Benchmark Reinforcement Learning

Karl Cobbe, Christopher Hesse|arXiv (Cornell University)|2019. 12. 03.

Reinforcement Learning in Robotics참고 문헌 25인용 수 171

한 줄 요약

Procgen Benchmark는 일반화 및 샘플 효율성을 평가하기 위한 16개의 절차적으로 생성된 다양하고 게임 유사한 환경을 제공하며, 더 큰 모델이 두 지표 모두를 향상시키고 다양한 분포가 필수적임을 보여준다.

ABSTRACT

We introduce Procgen Benchmark, a suite of 16 procedurally generated game-like environments designed to benchmark both sample efficiency and generalization in reinforcement learning. We believe that the community will benefit from increased access to high quality training environments, and we provide detailed experimental protocols for using this benchmark. We empirically demonstrate that diverse environment distributions are essential to adequately train and evaluate RL agents, thereby motivating the extensive use of procedural content generation. We then use this benchmark to investigate the effects of scaling model size, finding that larger models significantly improve both sample efficiency and generalization.

연구 동기 및 목표

일반화를 측정하기 위해 다양하고 고품질의 RL 학습 환경의 필요성을 동기 부여한다.
16개의 절차적으로 생성된 환경을 갖는 Procgen Benchmark를 소개한다.
Procgen로 샘플 효율성 및 일반화를 평가하기 위한 실험 프로토콜을 제공한다.
환경 다양성과 모델 확장이 RL 성능에 미치는 영향을 입증한다.

제안 방법

공통된 15-액션 공간과 64x64x3 관측을 공유하는 16개의 절차적으로 생성된 환경을 정의한다.
견고한 정책이 필요하도록 절차적 레벨 가변성을 갖는 결정론적 상태 전이 함수를 사용한다.
전체 분포에서 200M 타임스텝으로 학습된 PPO 기준선을 제공한다; easy 대 hard 난이도.
유한한 레벨 세트(예: 500 레벨)에서 학습하고 전체 분포에서 테스트하여 일반화를 측정한다.
다양한 학습 세트 크기와 레벨 분포로 샘플 효율성과 일반화를 평가한다.
IMPALA-스타일 CNN 아키텍처(채널 수 1x, 2x, 4x)로 모델 크기를 확장하고 Nature-CNN과 비교하며 학습률을 이에 따라 조정한다.

실험 결과

연구 질문

RQ1훈련 세트 크기가 절차적으로 생성된 레벨들 간의 일반화에 어떤 영향을 미치는가?
RQ2고정된 레벨 벤치마크와 비교하여 절차적 생성이 학습 분포를 넘는 일반화를 향상시키는가?
RQ3다양한 RL 환경에서 모델 크기가 샘플 효율성과 일반화에 미치는 영향은 무엇인가?
RQ4Procgen 벤치마크에서 안정성 및 성능 측면에서 PPO와 Rainbow은 어떻게 비교되는가?

주요 결과

에이전트는 작은 학습 세트에 대해 강하게 과적합하며, 대부분의 환경에서 약 10,000 레벨에 접근하면 일반화가 개선된다.
고정된 결정론적 레벨 시퀀스에서의 학습은 큰 train/test 차이를 만들어 다양성 있는 분포의 필요성을 강조한다.
더 큰 모델은 다양한 환경 전반에서 샘플 효율성과 일반화를 크게 향상시킨다.
IMPALA-스타일 채널 수를 배수로 증가시키면 성능이 향상되며, 작은 Nature-CNN은 종종 Procgen에서 학습에 실패한다.
PPO는 Rainbow보다 Procgen 전반에서 더 일관된 성능을 제공하지만, 조정된 설정에서 Rainbow가 여러 환경에서 더 나은 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.