QUICK REVIEW

[논문 리뷰] Quantifying Generalization in Reinforcement Learning

Karl Cobbe, Oleg Klimov|arXiv (Cornell University)|2018. 12. 06.

Reinforcement Learning in Robotics참고 문헌 20인용 수 195

한 줄 요약

이 논문은 일반화를 정량화하기 위한 절차적으로 생성된 RL 벤치마크 CoinRun을 소개하고, 표준 학습 설정에서 상당한 과적합을 나타내며, 아키텍처 선택과 정규화 기법이 RL의 일반화를 개선할 수 있음을 보여준다.

ABSTRACT

In this paper, we investigate the problem of overfitting in deep reinforcement learning. Among the most common benchmarks in RL, it is customary to use the same environments for both training and testing. This practice offers relatively little insight into an agent's ability to generalize. We address this issue by using procedurally generated environments to construct distinct training and test sets. Most notably, we introduce a new environment called CoinRun, designed as a benchmark for generalization in RL. Using CoinRun, we find that agents overfit to surprisingly large training sets. We then show that deeper convolutional architectures improve generalization, as do methods traditionally found in supervised learning, including L2 regularization, dropout, data augmentation and batch normalization.

연구 동기 및 목표

딥 RL에서 훈련과 테스트 환경을 분리하여 명시적 일반화 지표의 필요성을 촉진할 필요성.
에이전트가 큰 학습 세트에 과적합한다는 것을 보여주고 CoinRun에서 일반화 격차를 정량화한다.
아키텍처 선택과 정규화 기법이 절차적으로 생성된 과제에서 RL 일반화에 어떤 영향을 미치는지 평가한다.

제안 방법

CoinRun을 소개한다. 이는 제로샷 일반화를 평가하기 위한 고정된 보상 구조를 가진 절차적으로 생성된 환경이다.
다양한 수의 학습 레벨에서 여러 에이전트를 학습시키고 미세 조정 없이 제로샷 테스트 성능을 측정한다.
CNN 아키텍처를 비교한다(Nature-CNN 대 IMPALA-CNN)하고 일반화 차이를 평가하기 위해 IMPALA-Large로 확장한다.
정답 학습에서의 정규화 기법(L2, dropout, 데이터 증가, 배치 정규화)을 적용하고 일반화에 미치는 영향을 평가한다.
환경 또는 정책을 통해 확률적 요소를 주입한다(epsilon-greedy, 엔트로피 보너스) 일반화에 미치는 효과를 연구한다.
추가 환경(CoinRun-Platforms, RandomMazes)을 탐색하여 과적합 발견을 뒷받침한다.

실험 결과

연구 질문

RQ1RL 에이전트가 절차적으로 생성된 레벨의 서로 다른 세트에서 학습과 테스트를 수행할 때 어느 정도까지 과적합되는가?
RQ2아키텍처 선택(CNN 변형)이 CoinRun의 제로샷 일반화에 어떤 영향을 미치는가?
RQ3정규화 방법(L2, dropout, 데이터 증가, 배치 정규화)이 RL 일반화에 어떤 영향을 미치는가?
RQ4환경이나 정책의 확률적 요소를 증가시키면 일반화가 개선되는가, 그리고 그 정도는 어느 정도인가?
RQ5CoinRun 외의 다른 절차적으로 생성된 과제에서도 결과가 일반화되는가?

주요 결과

에이전트는 학습 레벨이 4,000개 미만일 때 상당한 과적합을 보이며, 16,000개 수준에서도 격차가 지속된다.
IMPALA-CNN 아키텍처가 학습 세트와 테스트 시점 모두에서 Nature-CNN보다 더 잘 일반화한다.
더 깊은 버전들(IMPALA-Large)이 일반화를 더 개선할 수 있다.
L2 정규화와 dropout은 일반화 격차를 줄이며, dropout을 p=0.1, L2 가중치 w=1e-4가 특히 효과적이다.
데이터 증가(Cutout 유사 마스킹)와 배치 정규화가 일반화를 상당히 향상시킨다.
epsilon-greedy 행동 또는 엔트로피 보너스를 통한 확률적 요소의 도입은 일반화를 개선하며, 종종 정규화만 하는 것보다 더 효과적이다.
데이터 증가, 배치 정규화, L2 정규화의 조합은 추가 이득을 약간 주며, 확률적 요소와 정규화를 함께 사용하는 것이 항상 더 이롭지는 않다.
CoinRun-Platforms와 RandomMazes에서의 정규화 및 아키텍처 개선은 RL에서의 상당한 과적합과 일반화 문제를 뒷받침한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.