QUICK REVIEW

[논문 리뷰] Genetic Policy Optimization.

Tanmay Gangwani, Jian Peng|arXiv (Cornell University)|2017. 11. 03.

Machine Learning and Data Classification인용 수 8

한 줄 요약

유전적 정책 최적화(GPO)는 상태공간 내에서 정책 교차를 위한 이민학습과 돌연변이를 위한 정책 그래디언트 방법을 조합함으로써 샘플 효율적인 딥 강화학습을 위한 새로운 유전 알고리즘을 제안한다. 이는 Mujoco 벤치마크 과제에서 최신 정책 그래디언트 방법보다 뛰어난 성능과 더 높은 샘플 효율성을 달성한다.

ABSTRACT

Genetic algorithms have been widely used in many practical optimization problems. Inspired by natural selection, operators, including mutation, crossover and selection, provide effective heuristics for search and black-box optimization. However, they have not been shown useful for deep reinforcement learning, possibly due to the catastrophic consequence of parameter crossovers of neural networks. Here, we present Genetic Policy Optimization (GPO), a new genetic algorithm for sample-efficient deep policy optimization. GPO uses imitation learning for policy crossover in the state space and applies policy gradient methods for mutation. Our experiments on Mujoco tasks show that GPO as a genetic algorithm is able to provide superior performance over the state-of-the-art policy gradient methods and achieves comparable or higher sample efficiency.

연구 동기 및 목표

기본적인 유전 알고리즘이 딥 강화학습에서 신경망 파라미터 교차로 인한 불안정성으로 인해 발생하는 한계를 해결하기 위해.
유전 연산자와 정책 그래디언트 방법을 융합하여 딥 정책 최적화의 샘플 효율성을 향상시키기 위해.
하이브리드 유전 및 정책 그래디언트 프레임워크를 사용하여 연속 제어 과제에서 효과적인 탐색과 이용을 가능하게 하기 위해.
유전 알고리즘이 Mujoco 벤치마크에서 최신 정책 그래디언트 방법보다 샘플 효율성과 최종 성능 면에서 뛰어나다는 것을 입증하기 위해.

제안 방법

GPO는 신경망 파라미터의 직접적 교차를 피하기 위해 상태공간 내에서 정책 교차를 수행하기 위해 이민학습을 활용한다.
정책 그래디언트 방법을 사용하여 돌연변이 연산을 적용함으로써 안정적이고 효과적인 정책 업데이트를 보장한다.
선택, 교차(상태공간 기반 이민학습을 통한), 그리고 돌연변이(정책 그래디언트를 통한)를 포함하는 프레임워크를 딥 정책에 맞게 조정한 유전 프레임워크 내에서 통합한다.
교차 연산은 부모 정책 간의 상태를 매칭하고, 해당 상태에서의 시연된 행동 기반으로 자식 정책을 생성함으로써 구현된다.
교차 이후 자식 정책의 성능 유지를 위해 정책 그래디언트를 활용하여 자식 정책를 정밀 조정한다.
GPO는 블랙박스 최적화 방법으로서, 정책 네트워크를 통해 기울기 계산이 필요 없이 롤아웃과 성능 피드백에 의존한다.

실험 결과

연구 질문

RQ1신경망 파라미터 교차의 위험으로 인해 딥 강화학습에 효과적으로 적용되기 어려운가?
RQ2유전 프레임워크 내에서 이민학습과 정책 그래디언트를 융합하면 연속 제어 과제에서 샘플 효율성이 향상되는가?
RQ3Mujoco 벤치마크에서 GPO는 최신 정책 그래디언트 방법과 비교해 최종 성능과 샘플 효율성 면에서 어떻게 다른가?
RQ4직접적인 파라미터 교차가 불안정할 경우, 교차와 선택과 같은 유전 연산자가 딥 정책에 의미 있게 적용될 수 있는가?

주요 결과

GPO는 Mujoco 벤치마크 과제에서 최신 정책 그래디언트 방법보다 뛰어난 성능을 달성한다.
기존의 정책 그래디언트 기반 베이스라인보다 더 높은 샘플 효율성을 보이며, 수렴하기 위해 필요한 환경 상호작용 수를 감소시킨다.
이민학습을 통한 교차를 통해 GPO는 직접적인 신경망 파라미터 교차로 인한 불안정성을 피한다.
정책 그래디언트를 통한 돌연변이 통합은 정책 개선이 안정적이고 효과적으로 이루어지도록 보장한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.