QUICK REVIEW

[논문 리뷰] UCB Exploration via Q-Ensembles

Richard Y. Chen, Szymon Sidor|arXiv (Cornell University)|2017. 06. 05.

Reinforcement Learning in Robotics참고 문헌 24인용 수 77

한 줄 요약

이 논문은 깊은 Q-learning을 위한 상한 신뢰도(UCB) 탐색 전략이 있는 Q-ensembles를 도입하여 Double DQN 및 Bootstrapped DQN보다 아타리 게임 성능이 향상됨을 보여준다.

ABSTRACT

We show how an ensemble of $Q^*$-functions can be leveraged for more effective exploration in deep reinforcement learning. We build on well established algorithms from the bandit setting, and adapt them to the $Q$-learning setting. We propose an exploration strategy based on upper-confidence bounds (UCB). Our experiments show significant gains on the Atari benchmark.

연구 동기 및 목표

표준 ε-그리디 및 Boltzmann 방법을 넘어서는 깊은 Q-러닝의 개선된 탐색 동기 부여.
Q-함수 앙상블을 유지하여 Q*의 후방분포를 근사하는 계산적으로 다루기 쉬운 베이지안 영감 프레임워크를 개발.
다수의 Q-head를 이용한 행동 선택을 위한 Ensemble Voting 메커니즘 제안.
앙상블 불확실성을 활용하여 탐색을 주도하는 UCB 기반 탐색 전략 도입.
경쟁력 있는 베이스라인과 비교하여 Atari 벤치마크에서의 방법을 실험적으로 검증

제안 방법

K개의 독립적으로 초기화된 Q* 함수 헤드를 구성하여 Q-ensembl리(Q1,...,QK)를 형성한다.
경험 재생 버퍼와 안정성을 위한 타깃 네트워크를 사용한 표준 벨만 업데이트를 적용한다.
각 Qk의 argmax 행동으로 다수결 투표를 통한 행동을 집계한다(알고리즘 1).
앙상블의 경험적 표준편차를 평균 Q-값에 더하여 UCB 기반 탐색 규칙을 도출한다(식 13).
두 가지 탐색 전략을 제시한다: Ensemble Voting(알고리즘 1)과 Q-Ensembles를 이용한 UCB 탐색(알고리즘 2).
아타리 게임에서 4000만 프레임에 대해 실험적으로 평가하고 Double DQN, Bootstrapped DQN 및 카운트 기반 기준선(A3C+)과 비교한다.

실험 결과

연구 질문

RQ1Ensemble Voting이 Atari 게임에서 Double DQN 및 Bootstrapped DQN보다 향상되었는가?
RQ2Q-ensembles를 이용한 UCB 탐색 전략이 Ensemble Voting보다 학습을 더 향상시키는가?
RQ3Q-ensembles와 UCB 탐색이 A3C+와 같은 카운트 기반 탐색 방법과 비교하여 Atari 게임 범주 전반에서 어떻게 비교되는가?
RQ4이 방법들이 어떤 게임 범주(Human Optimal, Score Explicit, Dense Reward, Sparse Reward)에서 두각을 나타내는가?
RQ5앙상블 크기와 탐색 하이퍼파라미터가 성능에 미치는 영향은 무엇인가?

주요 결과

Ensemble Voting은 Atari 게임에서 명시적 탐색 없이도 Double DQN 및 Bootstrapped DQN보다 우수하게 작동한다.
Q-ensembles를 이용한 UCB 탐색은 Ensemble Voting보다 더 나아가 많은 게임에서 최고 성능을 달성하며 추가적인 개선을 보인다.
49개 Atari 게임 전반에 걸쳐 UCB 탐색이 Baselines 대비 최대 평균 보상을 30개 게임에서 달성한다.
200M 프레임으로 학습된 A3C+와 비교했을 때, 제안된 방법들(40M 프레임)은 다수의 게임에서 더 높은 평균 보상을 달성한다.
전반적으로 UCB 탐색은 Human Optimal, Score Explicit, Dense Reward를 포함한 여러 게임 범주에서 성능을 개선한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.