Skip to main content
QUICK REVIEW

[논문 리뷰] Phasic Policy Gradient

Karl Cobbe, Jacob Hilton|arXiv (Cornell University)|2020. 09. 09.
Reinforcement Learning in Robotics참고 문헌 20인용 수 49
한 줄 요약

Phasic Policy Gradient (PPG)는 정책(policy) 및 가치 함수(value function) 훈련을 두 개의 교대 단계로 분리하고, 표현을 공유하면서 간섭을 줄여 Procgen 벤치마크에서 PPO보다 샘플 효율성을 높입니다. 또한 가치-함수 정보를 정책 네트워크로 증류하기 위한 유연한 보조(auxiliary) 단계를 도입합니다.

ABSTRACT

We introduce Phasic Policy Gradient (PPG), a reinforcement learning framework which modifies traditional on-policy actor-critic methods by separating policy and value function training into distinct phases. In prior methods, one must choose between using a shared network or separate networks to represent the policy and value function. Using separate networks avoids interference between objectives, while using a shared network allows useful features to be shared. PPG is able to achieve the best of both worlds by splitting optimization into two phases, one that advances training and one that distills features. PPG also enables the value function to be more aggressively optimized with a higher level of sample reuse. Compared to PPO, we find that PPG significantly improves sample efficiency on the challenging Procgen Benchmark.

연구 동기 및 목표

  • 정책(on-policy) 액터-크리틱 방법에서 정책과 가치 함수 목표 간의 간섭을 줄여 샘플 효율성을 높이는 동기를 제시합니다.
  • 공유 표현을 보존하면서 최적화를 분리하는 두 단계 학습 스키마를 제안합니다.
  • 가치 함수 지식을 정책 네트워크로 전이하기 위한 보조 증류 단계를 도입합니다.
  • PPG로 분리된 학습이 Procgen 환경에서 PPO보다 더 나은 샘플 효율성을 낳는다는 것을 입증합니다.

제안 방법

  • 목표 간섭을 줄이기 위해 정책 네트워크와 가치 함수 네트워크를 분리해 사용합니다.
  • 정책 단계는 엔트로피 규제와 함께 PPO 스타일의 클립된 대리 목표를 최적화합니다.
  • 보조 단계는 보조 가치 헤드를 공동으로 optimizes고 정책 정렬을 위한 복제(cloning) 목적을 함께 최적화하여 특징을 증류하되, 고정된 가치 타깃을 유지합니다.
  • 보조 손실 L^{aux}는 가치 함수 오차를 학습 신호로 사용하여 정책의 표현을 개선합니다.
  • L^{joint}는 보조 손실과 행동 복제 항을 결합하여 정책 드리프트를 방지하며, 복제 계수로 제어합니다.
  • 초매개변수로 N_{π}, E_{π}, E_{V}, E_{aux}, β_{clone}를 포함하고 보조 단계 동안 고정된 V-target를 유지합니다.

실험 결과

연구 질문

  • RQ1정책과 가치 함수 최적화를 분리하는 것이 간섭을 줄이고 on-policy RL에서 샘플 효율성을 향상시키는가?
  • RQ2정책과 가치 함수의 독립적 최적화가 신경망의 공유 표현과 어떻게 상호작용하는가?
  • RQ3보조 단계의 빈도와 샘플 재사용이 학습 효율성과 안정성에 미치는 영향은 무엇인가?
  • RQ4그래디언트 분리(detachment)를 사용하는 단일 네트워크 변형이 듀얼-넷 PPG 아키텍처의 성능에 근접할 수 있는가?

주요 결과

  • PPG는 Procgen 벤치마크에서 PPO보다 샘플 효율성이 현저히 더 높다.
  • 분리된 학습에서 PPG의 정책 샘플 재사용 이점은 제한적이며, 하나의 정책 에폭이 종종 최적에 근접하다.
  • 에폭 수가 늘어난 보조 단계는 일반적으로 어느 정도까지 도움이 되어 표현 학습과 가치 추정이 향상된다.
  • 자주 있는 보조 단계는 간섭으로 인해 정책 최적화에 악영향을 주므로, 드문 보조 단계가 바람직하다.
  • 연구 설정에서 PPG의 KL 페널티 및 클리핑 목표는 비슷한 성능을 낸다.
  • 그래디언트 분리(detachment)를 가진 단일 네트워크 PPG 변형은 듀얼-네트워크 성능에 근접하여 메모리 비용을 줄인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.