Skip to main content
QUICK REVIEW

[논문 리뷰] Averaged-DQN: Variance Reduction and Stabilization for Deep Reinforcement Learning

Oron Anschel, Nir Baram|arXiv (Cornell University)|2016. 11. 07.
Reinforcement Learning in Robotics참고 문헌 22인용 수 165
한 줄 요약

Averaged-DQN은 과거 Q-값 추정치를 평균화하여 타깃 값의 분산을 줄이고 Atari 게임에서 안정성과 성능을 향상시킵니다.

ABSTRACT

Instability and variability of Deep Reinforcement Learning (DRL) algorithms tend to adversely affect their performance. Averaged-DQN is a simple extension to the DQN algorithm, based on averaging previously learned Q-values estimates, which leads to a more stable training procedure and improved performance by reducing approximation error variance in the target values. To understand the effect of the algorithm, we examine the source of value function estimation errors and provide an analytical comparison within a simplified model. We further present experiments on the Arcade Learning Environment benchmark that demonstrate significantly improved stability and performance due to the proposed extension.

연구 동기 및 목표

  • 심층 강화학습에서 함수 근사로 인한 불안정성과 높은 분산 해결.
  • 이전 학습된 Q-값을 평균내어 DQN에 간단한 확장을 제안하는 Averaged-DQN을 제안.
  • 타깃 근사 오차 분산이 학습 다이나믹에 미치는 영향 분석.
  • ALE 벤치마크에서 안정성과 성능의 실질적 이득 시연.

제안 방법

  • 마지막 K개의 학습 네트워크의 Q값 평균으로 타깃을 계산하여 DQN 확장.
  • 평균 타깃에 대해 제곱 손실을 최소화하도록 현재 네트워크 매개변수를 업데이트.
  • 표준 경험 재생 버퍼와 ε-탐욕 탐색 유지.
  • ALE 게임에서 Averaged-DQN을 DQN 및 Double-DQN과 비교하고 타깃 추정의 분산 감소를 분석.
  • 단순화된 MDP 모델에서 TAEs에 대한 이론적 분산 분석을 제시하고 Ensemble-DQN과 대조.
  • Breakout, Seaquest, Asterix 전반의 실험 결과를 보고 안정성과 성능 향상을 설명.

실험 결과

연구 질문

  • RQ1평균화된 타깃 네트워크 수 K를 증가시키면 가치 추정 오차 및 과대추정에 어떤 영향을 미치는가?
  • RQ2평균화된 타깃이 학습 곡선을 더 안정시키고 ALE 게임에서 정책 성능 향상을 가져오는가?
  • RQ3TAEs에서 분산 감소 및 과대추정 완화 측면에서 Averaged-DQN과 Ensemble-DQN을 비교하면?
  • RQ4DQN이 함수 근사로 인한 불안정성으로 발산하는 설정에서 Averaged-DQN이 이를 예방할 수 있는가?

주요 결과

  • K 증가가 타깃 값 분산과 과대추정을 감소시켜 학습을 더 안정적으로 만든다.
  • 평균-DQN은 DQN에 비해 평균 점수 증가 및 변동성 감소를 보인다.
  • Breakout, Seaquest, Asterix에서 더 큰 K를 가진 Averaged-DQN이 표준 DQN보다 성능을 향상시키고 변동을 줄인다.
  • 평균-DQN은 이론적으로 Ensemble-DQN보다 분산 효율이 더 뛰어나 TAEs에서 최소 K배의 개선을 제공한다.
  • 일부 게임(Asterix 등)에서 DQN의 발산 문제를 Averaged-DQN으로 완화할 수 있다.
  • 실험 결과 Averaged-DQN이 테스트 설정에서 Double-DQN의 성능에 근접하거나 이를 능가할 수 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.