QUICK REVIEW

[논문 리뷰] Collaborative Evolutionary Reinforcement Learning

Shauharda Khadka, Somdeb Majumdar|arXiv (Cornell University)|2019. 05. 02.

Evolutionary Algorithms and Applications인용 수 32

한 줄 요약

이 논문은 다수의 TD3 기반 학습자들을 서로 다른 시간-장점 하이퍼파라미터를 가진 공유된 진화하는 개체군 내에서 통합하여 협업적 탐색과 이용을 가능하게 하는 확장 가능한 프레임워크인 협동적 진화 강화학습(CERL)을 제안한다. 최고 성능을 보이는 학습자들에게 동적으로 계산 자원을 할당하고 신경진화를 통해 잠재 정책을 생성함으로써 CERL은 개별 학습자들을 능가하며, 모든 개별 TD3 에이전트가 실패하는 Mujoco Humanoid 벤치마크를 해결하여 더 뛰어난 샘플 효율성과 하이퍼파라미터 민감도에 대한 강건성을 달성한다.

ABSTRACT

Deep reinforcement learning algorithms have been successfully applied to a range of challenging control tasks. However, these methods typically struggle with achieving effective exploration and are extremely sensitive to the choice of hyperparameters. One reason is that most approaches use a noisy version of their operating policy to explore - thereby limiting the range of exploration. In this paper, we introduce Collaborative Evolutionary Reinforcement Learning (CERL), a scalable framework that comprises a portfolio of policies that simultaneously explore and exploit diverse regions of the solution space. A collection of learners - typically proven algorithms like TD3 - optimize over varying time-horizons leading to this diverse portfolio. All learners contribute to and use a shared replay buffer to achieve greater sample efficiency. Computational resources are dynamically distributed to favor the best learners as a form of online algorithm selection. Neuroevolution binds this entire process to generate a single emergent learner that exceeds the capabilities of any individual learner. Experiments in a range of continuous control benchmarks demonstrate that the emergent learner significantly outperforms its composite learners while remaining overall more sample-efficient - notably solving the Mujoco Humanoid benchmark where all of its composite learners (TD3) fail entirely in isolation.

연구 동기 및 목표

딥 강화학습에서 지속적인 탐색의 비효율성과 하이퍼파라미터 민감도 문제를 해결하기 위해.
다양한 영역의 해 공간에서 협업적 탐색을 가능하게 하는 확장 가능한 프레임워크를 개발하기 위해.
동적 자원 할당을 통한 온라인 알고리즘 선택을 통해 수동 하이퍼파라미터 튜닝에 대한 의존도를 줄이기 위해.
신경진화를 활용하여 다수의 학습자를 하나의 잠재 정책으로 통합하여 개별 구성 요소를 초월하는 정책을 생성하기 위해.
특히 Humanoid와 같이 해결하기 어려운 환경에서 연속 제어 벤치마크에서 샘플 효율성과 강건성을 향상시키기 위해.

제안 방법

CERL은 각각 다른 시간-장점 하이퍼파라미터(예: 할인율 γ = 0.9, 0.99, 0.997, 0.9995)를 가진 TD3 기반 학습자들의 포트폴리오를 활용한다.
모든 학습자들이 단일 리PLAY 버퍼를 공유하여 집단적 이용을 가능하게 하고 샘플 효율성을 향상시킨다.
자원 관리자가 성능에 따라 실시간으로 계산 자원을 동적으로 할당하여 최고 성능을 내는 학습자들을 우선시한다.
신경진화는 병렬로 작동하며, 변이와 교잡을 적용하여 학습자 개체군 전체의 정책 파라미터를 진화시킨다.
진화 과정이 전체 시스템을 묶어 하나의 잠재 정책을 생성하며, 이는 모든 복합 학습자들의 강점을 통합한다.
온라인 알고리즘 선택을 위해 상한 신뢰도(UCB) 전략을 사용하여 학습자 우선순위를 적응적으로 조정한다.

실험 결과

연구 질문

RQ1다양한 하이퍼파라미터를 가진 다수의 RL 학습자로 구성된 협업 프레임워크가 연속 제어 작업에서 개별 학습자들을 능가할 수 있는가?
RQ2학습자 간의 동적 자원 할당이 샘플 효율성과 수렴 강건성 향상에 기여하는가?
RQ3신경진화가 다수의 RL 학습자를 하나의 뛰어난 잠재 정책으로 효과적으로 통합할 수 있는가?
RQ4CERL은 개별 TD3 에이전트가 완전히 실패하는 과도한 탐색 문제인 Mujoco Humanoid를 해결할 수 있는가?
RQ5기존 DRL 방법에 비해 CERL은 하이퍼파라미터 튜닝에 대한 민감도를 감소시키는가?

주요 결과

CERL은 모든 개별 TD3 학습자가 독립적으로 훈련될 경우 완전히 실패하는 Mujoco Humanoid 벤치마크를 성공적으로 해결했다.
4개의 벤치마크 중 3개에서 CERL은 모든 개별 TD3 기반 학습자보다 더 뛰어난 샘플 효율성을 보이며 뛰어난 데이터 효율성을 입증했다.
대부분의 작업에서 자원 관리자는 L2 학습자(γ = 0.99)에게 가장 높은 비중의 계산 자원을 할당했으며, 이는 이전 하이퍼파라미터 튜닝 결과와 일치한다.
Swimmer 벤치마크의 경우, CERL은 자원을 γ가 높은 학습자(L3 및 L4)로 동적으로 이관하여 γ = 0.997과 0.9995가 γ = 0.99보다 더 효과적임을 확인했으며, 이는 결과에서 관찰된 성능 향상과 일치한다.
다양한 환경에서 수동 하이퍼파라미터 튜닝 없이도 안정된 성능을 달성하여 하이퍼파라미터 선택에 대한 민감도가 없음을 보였다.
Walker2d와 같은 단순한 작업에서는 최적의 하이퍼파라미터 설정보다 샘플 효율성이 떨어지지만, 결국 최고의 개별 학습자 수준에 도달함으로써 최종 수렴을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.