Skip to main content
QUICK REVIEW

[논문 리뷰] What Matters In On-Policy Reinforcement Learning? A Large-Scale Empirical Study

Marcin Andrychowicz, Anton Raichuk|arXiv (Cornell University)|2020. 06. 10.
Reinforcement Learning in Robotics참고 문헌 26인용 수 104
한 줄 요약

이 논문은 통합된 온-policy RL 프레임워크에서 50개가 넘는 설계 선택에 대한 대규모 실증 연구를 수행하고, 다섯 개의 연속 제어 환경에서 250,000개가 넘는 에이전트를 학습시켜 실용적 권고안을 도출한다.

ABSTRACT

In recent years, on-policy reinforcement learning (RL) has been successfully applied to many different continuous control tasks. While RL algorithms are often conceptually simple, their state-of-the-art implementations take numerous low- and high-level design decisions that strongly affect the performance of the resulting agents. Those choices are usually not extensively discussed in the literature, leading to discrepancy between published descriptions of algorithms and their implementations. This makes it hard to attribute progress in RL and slows down overall progress [Engstrom'20]. As a step towards filling that gap, we implement >50 such ``choices'' in a unified on-policy RL framework, allowing us to investigate their impact in a large-scale empirical study. We train over 250'000 agents in five continuous control environments of different complexity and provide insights and practical recommendations for on-policy training of RL agents.

연구 동기 및 목표

  • 저수준 및 고수준 구현 선택이 온-policy RL 성능에 어떤 영향을 미치는지 조사한다.
  • 통합된 PPO 기반 프레임워크에서 >50개의 구성 가능 옵션의 영향을 정량화한다.
  • 초매개변수, 아키텍처, 학습 설정에 관한 실무자용 실행 가능한 가이드라인을 제공한다.

제안 방법

  • 구성 옵션으로 노출된 선택지를 가진 PPO 기반의 고도로 구성 가능한 온-policy 에이전트를 구축한다.
  • 다섯 개의 연속 제어 환경에서 250,000개가 넘는 에이전트를 학습시켜 성능을 평가한다.
  • 구성 그룹 간 95번째 백분위수 성능을 분석하고 최상위 구성들을 검토하여 각 선택을 평가한다.
  • 관련 선택 간의 상호 작용을 고려하고 강건한 결론을 보장하기 위해 2단계 분석을 사용한다.

실험 결과

연구 질문

  • RQ1연속 제어 과제에서 어떤 저수준 및 고수준 설계 선택이 온-policy RL 성능에 가장 큰 영향을 미치는가?
  • RQ2정책 손실, 네트워크 아키텍처, 정규화, 어드밴티지 추정, 학습 설정, 타임스텝 처리, 옵티마이저, 정규화와 같은 선택들이 학습 속도와 최종 성능에 어떤 영향을 미치는가?
  • RQ3현실 세계에서 온-policy RL을 구현하는 실무자에게 어떤 실용적 권고를 제시할 수 있는가?

주요 결과

  • PPO 정책 손실이 일반적으로 대체 방법들보다 낫고, 클리핑 임계값이 약 0.25인 것이 안정적인 시작점이다.
  • 가치망과 정책망을 분리하면 성능이 자주 향상되며, 아키텍처의 폭과 활성화 선택(tanh)이 결과에 상당한 영향을 미친다; 초기 행동 분포 초기화가 학습 속도에 강한 영향을 준다.
  • 입력 정규화가 결정적이며, 환경에 따라 가치 함수 정규화가 성능에 큰 영향을 미칠 수 있다; 그래디언트 클리핑은 다소 향상을 제공한다.
  • GAE와 V-trace가 N-step보다 낫고, PPO 스타일의 가치 손실 클리핑과 허버 손실은 널리 유익하지 않다.
  • 데이터 수집 전략이 중요하다: 경험을 여러 차례 되풀이하고 데이터 패스마다 어드밴티지를 재계산하면 샘플 효율이 향상되며, 더 많은 병렬 환경은 일부 과제를 악화시킬 수 있지만 자원이 허용되면 실제 시간은 빨리 달릴 수 있다.
  • 모멘텀을 가진 Adam 옵티마이저와 조정된 학습률은 강력한 기본값이며, 엔트로피나 KL 페널티를 통한 규제는 제한적이거나 환경 의존적 이점을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.