QUICK REVIEW

[논문 리뷰] Proximal Policy Optimization with Evolutionary Mutations

Casimir Czworkowski, Stephen Hornish|arXiv (Cornell University)|2026. 01. 21.

Reinforcement Learning in Robotics인용 수 0

한 줄 요약

POEM은 KL-divergence 새로움에 의해 촉발되는 적응적 진화적 돌연변이를 통해 탐색을 개선하고 여러 OpenAI Gym 과제에서 더 높은 보상을 달성하도록 PPO를 보강한다.

ABSTRACT

Proximal Policy Optimization (PPO) is a widely used reinforcement learning algorithm known for its stability and sample efficiency, but it often suffers from premature convergence due to limited exploration. In this paper, we propose POEM (Proximal Policy Optimization with Evolutionary Mutations), a novel modification to PPO that introduces an adaptive exploration mechanism inspired by evolutionary algorithms. POEM enhances policy diversity by monitoring the Kullback-Leibler (KL) divergence between the current policy and a moving average of previous policies. When policy changes become minimal, indicating stagnation, POEM triggers an adaptive mutation of policy parameters to promote exploration. We evaluate POEM on four OpenAI Gym environments: CarRacing, MountainCar, BipedalWalker, and LunarLander. Through extensive fine-tuning using Bayesian optimization techniques and statistical testing using Welch's t-test, we find that POEM significantly outperforms PPO on three of the four tasks (BipedalWalker: t=-2.0642, p=0.0495; CarRacing: t=-6.3987, p=0.0002; MountainCar: t=-6.2431, p<0.0001), while performance on LunarLander is not statistically significant (t=-1.8707, p=0.0778). Our results highlight the potential of integrating evolutionary principles into policy gradient methods to overcome exploration-exploitation tradeoffs.

연구 동기 및 목표

PPO에서 탐색-활용 트레이드오프를 다루는 동기를 제시한다.
정책 돌연변이를 촉발하는 적응적이며 KL-발산 기반의 메커니즘을 소개한다.
다양한 연속 제어 과제에서 POEM을 PPO와 대조 평가한다.
여러 환경에서 통계적으로 유의미한 성능 향상을 보여준다.

제안 방법

현재 정책과 이동평균 정책 간의 적응적 KL-발산 다양성 모니터로 PPO를 확장한다.
다양성이 임계값 아래로 떨어질 때 정책 파라미터에 적응적 가우시안 노이즈를 주입해 진화적 돌연변이를 촉발한다.
Use a total objective L_total = L_PPO - lambda_div * D_KL(pi_theta || pi_hat) + alpha_vf * L_VF - alpha_ent * H(pi_theta).
임계값 delta에 대한 D_KL의 부족분에 따라 변이 강도 sigma를 적응적으로 조정하고 L_total을 개선하는 변이만 선택적으로 수용한다.
환경 전반에 걸쳐 Optuna로 하이퍼파라미터 튜닝을 수행한 후, 긴 최종 학습 실행과 결정적 평가를 수행한다.

실험 결과

연구 질문

RQ1KL-발산 기반의 적응적 돌연변이 도입이 다양한 제어 과제에서 PPO의 성능을 향상시키는가?
RQ2표준 PPO와 비교하여 POEM은 탐색과 활용의 균형을 어떻게 달성하는가?
RQ3결정적 시드를 사용한 다양한 과제에서 성능 향상이 통계적으로 유의한가?

주요 결과

환경	POEM	PPO
CarRacing-v3	640.01	-610.83
MountainCarContinuous-v0	93.52	-311.75
BipedalWalker-v3	180.58	62.43
LunarLander-v3	242.10	210.94

POEM은 CarRacing, MountainCar, BipedalWalker에서 PPO를 현저히 능가하며 p-값은 각각 0.0002, <0.0001, 0.0495이다.
LunarLander에서 POEM은 PPO에 비해 통계적 유의성을 달성하지 못한다( p = 0.0778 ).
환경당 15개의 평가 에피소드에서 POEM은 대부분의 실행에서 PPO보다 더 높은 평균 보상을 산출하며 더 빠르고 안정적인 학습 곡선을 보인다.
최종 평균 보상: CarRacing 640.01 (POEM) 대 -610.83 (PPO); MountainCar 93.52 대 -311.75; BipedalWalker 180.58 대 62.43; LunarLander 242.10 대 210.94.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.