QUICK REVIEW

[논문 리뷰] SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep Reinforcement Learning

Kimin Lee, Michael Laskin|arXiv (Cornell University)|2020. 07. 09.

Reinforcement Learning in Robotics참고 문헌 60인용 수 47

한 줄 요약

SUNRISE는 Target Q-값을 엔샌블 불확실성으로 재가중하고 부트스트랩 다양성으로 상한 신뢰 구간 탐색을 사용하여 SAC와 Rainbow DQN을 개선하는 오프 폴리시 딥 RL용 간단한 통합 앙상블 방법이다. 연속 및 이산 작업 전반에 걸쳐 작동한다.

ABSTRACT

Off-policy deep reinforcement learning (RL) has been successful in a range of challenging domains. However, standard off-policy RL algorithms can suffer from several issues, such as instability in Q-learning and balancing exploration and exploitation. To mitigate these issues, we present SUNRISE, a simple unified ensemble method, which is compatible with various off-policy RL algorithms. SUNRISE integrates two key ingredients: (a) ensemble-based weighted Bellman backups, which re-weight target Q-values based on uncertainty estimates from a Q-ensemble, and (b) an inference method that selects actions using the highest upper-confidence bounds for efficient exploration. By enforcing the diversity between agents using Bootstrap with random initialization, we show that these different ideas are largely orthogonal and can be fruitfully integrated, together further improving the performance of existing off-policy RL algorithms, such as Soft Actor-Critic and Rainbow DQN, for both continuous and discrete control tasks on both low-dimensional and high-dimensional environments. Our training code is available at https://github.com/pokaxpoka/sunrise.

연구 동기 및 목표

오프 폴리시 딥 RL에서의 불안정성 및 샘플 비효율성을 동기 부여하고 해결한다.
SAC와 Rainbow DQN에 호환되는 통합 앙상블 프레임워크를 제안하여 성능을 향상시킨다.
앙상블 불확실성을 활용하여 벨만 백업의 재가중과 학습 신호 대 잡음비를 개선하기 위한 탐색 가이드를 제공한다.

제안 방법

각 에이전트 i가 앙상블 타깃 Q-std에 의해 구동되는 가중치 w(s,t)를 사용하는 엔샌블 기반 가중 벨만 백업을 도입한다: w(s,a)=sigmoid(-Qstd_bar(s,a)*T)+0.5 (Equation 6).
업데이트 중 이진 마스크 m_{t,i}를 사용하여 무작위 초기화를 통해 에이전트 다양성을 보장하기 위해 부트스트랩을 적용한다.
탐색을 위한 Q-함수 전반에 걸쳐 평균(Q_mean)과 표준편차(Q_std)를 이용한 상한 신뢰 구간(mean+lambda*std)을 사용하여 행동을 선택한다: a_t = argmax_a [Q_mean(s_t,a) + lambda Q_std(s_t,a)].
가중 벨만 백업을 기존의 오프 폴리시 방법(SAC: 연속 제어용; Rainbow DQN: 이산 제어용)과 결합한다.
WBB가 포함된 SAC 기반 학습, 부트스트랩 마스킹, 그리고 UCB 탐색을 상세히 설명하는 알고리즘(SUNRISE)을 제시한다(Algorithm 1).
연속 및 이산 작업 모두와의 확장성 및 호환성을 입증하고, 앙상블 크기가 미치는 영향을 분석한다.

실험 결과

연구 질문

RQ1SUNRISE가 SAC와 Rainbow DQN 같은 오프 폴리시 RL 알고리즘을 연속 및 이산 작업에서 개선하는가?
RQ2가중 벨만 백업이 학습의 안정성과 데이터 효율성 향상에 얼마나 중요한가?
RQ3스파스한 보상이나 잡음이 있는 환경에서 UCB 기반 탐색이 유익한가?
RQ4단일 더 큰 네트워크나 더 많은 업데이트를 사용하는 것 그 이상으로 SUNRISE의 이득을 달성할 수 있는가?
RQ5앙상블 크기가 성능에 미치는 영향과 포화 지점은 어디인가?

주요 결과

SUNRISE는 연속 제어 벤치마크에서 SAC를 지속적으로 개선하고 OpenAI Gym 및 DeepMind Control Suite의 여러 모델 기반 기준치를 능가한다.
SUNRISE는 Atari 게임에서 Rainbow DQN도 개선하여 다수의 게임에서 CURL과 SimPLe를 능가한다.
가중 벨만 백업은 특히 잡음이 있는 보상 설정에서 학습 안정성과 데이터 효율성을 크게 향상시키며, 복잡한 환경에서 DisCor보다 이득이 크다.
앙상블과 함께한 UCB 탐색은 희박한 보상 과제에서 성능을 향상시킨다.
앙상블 이득은 더 많은 업데이트나 더 큰 네트워크 때문만은 아니며, 다섯 개의 앙상블이 견고한 개선을 제공하고 다섯 이후 수익이 감소하는 경향이 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.