[논문 리뷰] Effective Diversity in Population Based Reinforcement Learning
DvD introduces Diversity via Determinants to optimize population-wide behavioral diversity in RL by using task-agnostic behavioral embeddings and a determinant-based diversity objective, with ES and TD3 implementations and adaptive diversity trading.
Exploration is a key problem in reinforcement learning, since agents can only learn from data they acquire in the environment. With that in mind, maintaining a population of agents is an attractive method, as it allows data be collected with a diverse set of behaviors. This behavioral diversity is often boosted via multi-objective loss functions. However, those approaches typically leverage mean field updates based on pairwise distances, which makes them susceptible to cycling behaviors and increased redundancy. In addition, explicitly boosting diversity often has a detrimental impact on optimizing already fruitful behaviors for rewards. As such, the reward-diversity trade off typically relies on heuristics. Finally, such methods require behavioral representations, often handcrafted and domain specific. In this paper, we introduce an approach to optimize all members of a population simultaneously. Rather than using pairwise distance, we measure the volume of the entire population in a behavioral manifold, defined by task-agnostic behavioral embeddings. In addition, our algorithm Diversity via Determinants (DvD), adapts the degree of diversity during training using online learning techniques. We introduce both evolutionary and gradient-based instantiations of DvD and show they effectively improve exploration without reducing performance when better exploration is not required.
연구 동기 및 목표
- RL에서 다양한 에이전트 모집단을 활용해 다양한 경험을 수집하도록 탐험을 촉진한다.
- 행동 임베딩에 대한 결정자 기반 다양성 측정을 사용하여 쌍 간 거리 기반 다양성을 대체한다.
- Thompson 샘플링을 통해 학습 중에 보상과 다양성의 균형을 맞추는 적응 기제를 개발한다.
- 두 가지 실용적 구현(DvD-ES 및 DvD-TD3)을 제공하여 탐험 및 성능 향상을 시연한다.
- 다양성 촉진 업데이트가 탐험이 필요하지 않을 때 성능을 해치지 않는다는 것을 보여준다+
제안 방법
- 태스크-가이드가 아닌 행동 임베딩을 정책 동작으로 정의한다( phi(theta^i) = {pi_theta^i(·|s)}_s in S ).
- K가 임베딩 위의 양의 준정부(kernel)인 Det(K(phi(theta^i),phi(theta^j)))를 사용하여 모집단 다양성을 측정한다.
- 합동 목적함수 J(Theta) = sum_i E[R(tau) for pi_theta^i] + lambda_t * Div(Theta)를 최적화하고 온라인으로 lambda_t를 Thompson 샘플링으로 적응한다.
- 두 가지 구현을 도입한다: DvD-ES(공동 다양성 항이 결합된 진화 전략) 및 DvD-TD3(미분가능한 다양성 그래디언트를 갖는 오프폴리시 TD3).
- 결합이 최대화될 때 다양한 고성능 해를 회복한다는 이론적 근거를 제공한다(정리 3.3) 및 SE 커널에 대한 평균 쌍 간 거리와의 일阶 관계를 논의한다.
- 임베딩을 계산하기 위해 상태의 적응 샘플링을 사용하고 커널 선택, 상태 샘플링, 적응 메커니즘에 대한 제거 실험(ablation)을 수행한다.
실험 결과
연구 질문
- RQ1결정자 기반 다양성이 RL 에이전트 모집단에서 해로운 순환 또는 중복을 유발하지 않고 탐험을 촉진할 수 있는가?
- RQ2결정자들을 통한 모집단 다양성 극대화가 다중 모드 작업에서 다양하고 고성능인 정책들을 창출하는가?
- RQ3온라인으로 다양성-보상 간의 트레이드오프를 효과적으로 적응시켜 탐험과 활용 사이의 균형을 맞출 수 있는가?
- RQ4DvD-ES와 DvD-TD3가 다양성이 필요하지 않을 때도 성능을 유지하는가?
- RQ5커널 선택 및 임베딩 샘플링에 대해 DvD가 얼마나 민감한가?
주요 결과
- DvD는 일반적인 ES 및 노출 기반 ES가 실패하는 탐험 과제를 해결할 수 있게 한다(예: 벽으로 둘러싸인 목표 탐색).
- 다중 모드 작업(치타, 안타)에서 DvD는 모드 전반에 걸쳐 다양하고 고성능인 행동을 학습한다.
- OpenAI Gym 단일 모드 작업에서 DvD는 일반적인 ES 대비 성능 손실을 최소화하고 NSR-ES를 능가하는 다중모드 회전 회피로 성능 저하를 피한다.
- Humanoid-v2에서 DvD-TD3는 1M 타임스텝 내에 샘플 효율성과 최종 성능이 우수하며(중간값 최고 성과 약 6091 vs 5654 E-TD3), 이전 방법들을 상회한다.
- 적응적 lambda_t는 고정 설정에 비해 다양한 환경에서 성능을 향상시킨다.
- 커널 민감도 실험에서 대부분의 커널이 SE와 유사한 강력한 성능을 제공하여 커널 선택에 대한 로버스트성을 보여준다.
- DvD-TD3는 Humanoid-v2(전방이동)에서 1M 스텝 만에 6000이 넘는 보상을 보여주며, 오프폴리시 모집단 방법에 대한 실용적 이점을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.