QUICK REVIEW

[논문 리뷰] Distributional Reinforcement Learning with Quantile Regression

Will Dabney, Mark Rowland|arXiv (Cornell University)|2017. 10. 27.

Sports Analytics and Performance인용 수 150

한 줄 요약

이 논문은 Wasserstein 지표 하에서 강화학습의 가치 분포를 엔드투엔드로 학습하는 방법을 Quantile Regression을 사용하여 제시하고, qr-dqn을 도입하며 Atari에서 최첨단 결과를 달성한다.

ABSTRACT

In reinforcement learning an agent interacts with the environment by taking actions and observing the next state and reward. When sampled probabilistically, these state transitions, rewards, and actions can all induce randomness in the observed long-term return. Traditionally, reinforcement learning algorithms average over this randomness to estimate the value function. In this paper, we build on recent work advocating a distributional approach to reinforcement learning in which the distribution over returns is modeled explicitly instead of only estimating the mean. That is, we examine methods of learning the value distribution instead of the value function. We give results that close a number of gaps between the theoretical and algorithmic results given by Bellemare, Dabney, and Munos (2017). First, we extend existing results to the approximate distribution setting. Second, we present a novel distributional reinforcement learning algorithm consistent with our theoretical formulation. Finally, we evaluate this new algorithm on the Atari 2600 games, observing that it significantly outperforms many of the recent improvements on DQN, including the related distributional algorithm C51.

연구 동기 및 목표

강화학습에서 평균뿐만 아니라 수익의 전체 분포를 모델링하는 동기를 제시한다.
Wasserstein 거리 하에서 엔드투엔드 최적화를 가능하게 하여 이론과 실무의 격차를 줄인다.
퀀타일 회귀를 학습하는 실용 알고리즘(qr-dqn)을 개발한다.
기존의 분포적 방법과 비교하여 Atari 2600 벤치마크에서 우수한 성능을 보임을 입증한다.

제안 방법

고정 위치의 균일 확률 분포(c51와 달리) 대신 고정된 퀀타일 위치와 균일 가중치를 사용하여 반환 분포의 분위값을 추정한다.
퀀타일 회귀를 사용하여 목표 분포와 예측 분포 간의 Wasserstein-1 거리를 최소화하고 편향 없는 확률적 경사 업데이트를 가능하게 한다.
퀀타일 투사와 분포형 벨만 연산자를 결합한 연산자가 Wasserstein 지표에서 수축 특성을 갖는지 입증한다.
정책 평가를 위한 퀀타일 회귀 TD(qrtd)와 제어를 위한 QR-DQN(qr-dqn)을 도출하고, 선택적으로 퀀타일-허버 손실을 도입한다.
각 행동당 N개의 퀀타일을 출력하도록 DQN 아키텍처를 적응시키고, 표준 TD 손실 대신 퀀타일 회귀 손실로 학습한다.
그리드월드 유사한 과제와 57개의 Atari 2600 게임에서 c51 및 DQN 변형과 비교하여 경험적으로 검증한다.

실험 결과

연구 질문

RQ1퀀타일 회귀를 사용하여 Wasserstein 지표 하에서 엔드투엔드로 작동하는 분포 강화학습 알고리즘이 가능한가?
RQ2투사 단계 없이 퀀타일 기반의 분포 표현이 기존 방법(c51)에 비해 안정성 및 성능을 개선하는가?
RQ3qr-dqn이 Atari 2600 벤치마크에서 최첨단 성능을 달성하며 기존 분포적 방법과 어떻게 비교되는가?
RQ4퀀타일 투사를 분포형 벨만 연산자와 결합할 때의 이론적 수축 특성은 무엇인가?
RQ5퀀타일 회귀(Huber 매끄러짐 유무)가 분포형 RL의 학습 다이나믹스와 최종 성능에 어떤 영향을 미치는가?

주요 결과

평균	중앙값	> 인간	> DQN
dqn	228%	79%	24	0
ddqn	307%	118%	33	43
Duel.	373%	151%	37	50
Prior.	434%	124%	39	48
Pr. Duel.	592%	172%	39	44
c51	701%	178%	40	50
qr-dqn - 0	881%	199%	38	52
qr-dqn - 1	915%	211%	41	54

퀀타일 기반의 분포형 RL 알고리즘이 고정된 퀀타일 위치 위의 균일 가중치로 Wasserstein 거리 하에서 분포 고정 점으로 수렴한다.
퀀타일 투사와의 결합 연산자는 무한 Wasserstein 거리에서 수축이 되어 수렴을 보장한다.
qr-dqn은 Atari 2600 벤치마크에서 기존 방법(c51 포함)보다 성능이 우수하여 평균 및 중앙값 인간 표준화 점수가 더 높다.
퀀타일-허버 손실을 사용하면 엄격한 퀀타일 손실에 비해 추가적인 성능 향상을 얻을 수 있다.
풍향이 강한 그리드월드 설정에서 qrtd가 실제로 1-Wasserstein 거리를_ground-truth 분포에 정확히 최소화하는 것을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.