QUICK REVIEW

[논문 리뷰] GEP-PG: Decoupling Exploration and Exploitation in Deep Reinforcement Learning Algorithms

Cédric Colas, Olivier Sigaud|arXiv (Cornell University)|2018. 02. 14.

Reinforcement Learning in Robotics참고 문헌 41인용 수 75

한 줄 요약

GEP-PG는 Goal Exploration Processes를 Deep Deterministic Policy Gradient와 결합하여 탐색과 활용을 분리함으로써 CMC 및 Half-Cheetah 벤치마크에서 샘플 효율성, 최종 성능 및 안정성을 향상시킨다.

ABSTRACT

In continuous action domains, standard deep reinforcement learning algorithms like DDPG suffer from inefficient exploration when facing sparse or deceptive reward problems. Conversely, evolutionary and developmental methods focusing on exploration like Novelty Search, Quality-Diversity or Goal Exploration Processes explore more robustly but are less efficient at fine-tuning policies using gradient descent. In this paper, we present the GEP-PG approach, taking the best of both worlds by sequentially combining a Goal Exploration Process and two variants of DDPG. We study the learning performance of these components and their combination on a low dimensional deceptive reward problem and on the larger Half-Cheetah benchmark. We show that DDPG fails on the former and that GEP-PG improves over the best DDPG variant in both environments. Supplementary videos and discussion can be found at http://frama.link/gep_pg, the code at http://github.com/flowersteam/geppg.

연구 동기 및 목표

연속적 행동 강화학습에서 탐색 문제를 동기 부여하고 해결하며, 특히 희박하거나 기만적인 보상이 있을 때를 다룬다.
Goal Exploration Processes(GEP)를 통해 먼저 탐색하고, 그다음 재생 버퍼 기반 DDPG 변형으로 활용하는 두 단계 프레임워크를 제안한다.
저차원(Continuous Mountain Car)과 고차원(Half-Cheetah) 벤치마크에서 경험적으로 평가한다.
최종 성능, 샘플 효율성, 학습 변동성에 미치는 영향을 평가한다.
Gep-PG 프레임워크의 견고성, 한계 및 잠재적 확장에 대해 논의한다.

제안 방법

다양한 정책 레퍼토리를 생성하기 위해 Goal Exploration Processes를 이용한 탐색 단계와 함께 두 가지 학습 단계를 정의한다;
결과로 얻은 (theta, o) 쌍을 메모리에 저장하고 관찰된 결과 근처를 샘플링해 가우시안 잡음을 이용해 새로운 정책을 생성한다;
GEP가 생성한 샘플로 DDPG 재생 버퍼를 채우고, 액션 퍼트 변형 또는 파라미터 퍼트 변형 DDPG 변형 중 하나로 학습한다;
표준 DDPG 변형과 비교하고 CMC 및 HC에서 성능, 분산 및 샘플 효율성을 분석한다;
다중 시드와 부트스트랩/통계 테스트를 사용한 표준화된 평가 방법론으로 유의성을 평가한다;
학습 중 최적 정책 등 절대 성능과 최종(마지막 100회 평가 에피소드) 성능 모두를 보고한다.

실험 결과

연구 질문

RQ1GEP를 통해 탐색과 활용을 분리하는 것이 탐색 노이즈를 사용하는 표준 DDPG에 비해 연속 행동 RL에서 학습을 향상시키는가?
RQ2저차원 기만적 보상 문제(CMC)와 고차원 벤치마크(Half-Cheetah)에서 GEP 및 Gep-PG의 성능은 어떤가?
RQ3정책의 복잡성 및 버퍼 내용이 Gep-PG의 성능과 안정성에 미치는 영향은 무엇인가?
RQ4벤치마크 전반에서 Gep-PG가 DDPG 변형보다 더 샘플 효율적이고 분산에 덜 민감한가?
RQ5발달적 탐색과 심층 강화학습을 결합하기 위한 잠재적 확장 및 향후 방향은 무엇인가?

주요 결과

GEP 단독으로도 경쟁력 있는 탐색을 제공하며 CMC 벤치마크에서 기만적인 그래디언트 문제로 인해 DDPG 변형보다 성능이 더 우수할 수 있다.
Half-Cheetah에서 Gep-PG는 최종 성능과 분산에서 DDPG 변형들을 크게 능가했으며 당시의 최첨단 수준과 유사한 결과를 달성했다.
액션 퍼트 변형이 기만적이거나 희박한 보상 설정에서 파라미터 퍼트에 비해 성능이 떨어질 수 있다.
GEP가 생성한 샘플로 DDPG 재생 버퍼를 채우면 샘플 효율성, 최종 성능이 향상되고 변동성이 감소한다.
탐색 단계에서 Gep 에피소드 수의 다양한 범위에서 GEP-PG의 견고성이 관측되며 안정적인 성능 향상이 나타난다.
버퍼에 더 크고 다양한 궤적 세트가 Gep-PG의 성능 및 일반화와 양의 상관관계가 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.