QUICK REVIEW

[논문 리뷰] Stochastic approximation with cone-contractive operators: Sharp $\ell_\infty$-bounds for $Q$-learning

Martin J. Wainwright|arXiv (Cornell University)|2019. 05. 15.

Reinforcement Learning in Robotics참고 문헌 23인용 수 23

한 줄 요약

이 논문은 새로운 스 tochastic approximation 프레임워크인 코너 수축 연산자를 사용하여 할인 마르코프 결정 과정에서 $Q$-학습에 대한 날카운 비점근적 $ε$-경계를 개발한다. 코어에 의해 유도된 게이지 노름 하에서 단조성과 준수축성에 기반하여 저자들은 알려진 바 중 가장 날카운 $∞$-노름 오차 경계를 유도하며, 이는 $Q$-학습의 표본 복잡도가 worst case에서 $\frac{1}{(1-\gamma)^4\epsilon^2}$ 스케일링을 따른다는 것을 보여주며, 이는 최적의 모델 기반 $Q$-반복과의 격차를 드러낸다.

ABSTRACT

Motivated by the study of $Q$-learning algorithms in reinforcement learning, we study a class of stochastic approximation procedures based on operators that satisfy monotonicity and quasi-contractivity conditions with respect to an underlying cone. We prove a general sandwich relation on the iterate error at each time, and use it to derive non-asymptotic bounds on the error in terms of a cone-induced gauge norm. These results are derived within a deterministic framework, requiring no assumptions on the noise. We illustrate these general bounds in application to synchronous $Q$-learning for discounted Markov decision processes with discrete state-action spaces, in particular by deriving non-asymptotic bounds on the $\ell_\infty$-norm for a range of stepsizes. These results are the sharpest known to date, and we show via simulation that the dependence of our bounds cannot be improved in a worst-case sense. These results show that relative to a model-based $Q$-iteration, the $\ell_\infty$-based sample complexity of $Q$-learning is suboptimal in terms of the discount factor $γ$.

연구 동기 및 목표

코너 수축 연산자를 사용한 스 tochastic approximation 알고리즘의 비점근적 오차 분석을 위한 일반적 프레임워크를 개발하는 것.
이 프레임워크를 할인 마르코프 결정 과정에서의 동기식 $Q$-학습에 특별히 적용하는 것.
현재까지 알려진 가장 날카운 $Q$-학습에 대한 $\ell_\infty$-노름 오차 비점근적 경계를 도출하는 것.
$Q$-학습의 표본 복잡도가 할인 인자 $\gamma$에 대해 모델 기반 $Q$-반복에 비해 열 劣하다는 것을 보여주는 것.
비어 있는 '어려운' 문제 인스턴스에서 시뮬레이션을 통해 경계의 날카로움을 검증하는 것.

제안 방법

코어에 의해 유도된 부분 순서와 게이지 노름에 대해 단조적이고 준수축적인 연산자에 의해 지배되는 일반적인 스 tochastic approximation 알고리즘의 클래스를 도입한다.
각 단계에서 반복 오차에 대한 결정론적 샌드위치 부등식을 수립하여 코어에 의해 유도된 순서로 오차를 경계한다.
샌드위치 결과를 특정 감소하는 스텝 사이즈 스케줄(선형 및 다항식)에 적용하여 일반적인 스텝 사이즈에 대한 비점근적 오차 경계를 도출한다.
일반 이론을 동기식 $Q$-학습에 특화하여, 초등 노름 코어(직각 코어)를 사용하여 $\ell_\infty$-노름 경계를 도출한다.
지수 합과 적분에 대한 경계에 기반하여 농도와 합산 기법을 사용하여 기대 오차를 제어한다.
비어 있는 MDP 예제를 구성하여 유도된 경계가 일반적으로 향상될 수 없음을 보여주며, 특히 $\frac{1}{(1-\gamma)^5}$ 스케일링에서의 worst-case 성능을 강조한다.

실험 결과

연구 질문

RQ1일반적인 스텝 사이즈 하에서 동기식 $Q$-학습에 대해 가능한 가장 날카운 비점근적 $\ell_\infty$-노름 오차 경계는 무엇인가?
RQ2$Q$-학습의 성능은 할인 인자 $\gamma$에 대해 모델 기반 $Q$-반복과 비교해 어떻게 달라지는가?
RQ3$Q$-학습의 이론적 오차 경계가 날카로운지 입증할 수 있으며, 만약 그렇다면 어떤 조건에서 가능한가?
RQ4$Q$-학습에서 $\epsilon$-정확도를 달성하기 위한 반복 수의 최적 스케일링은 무엇인가? ($\ell_\infty$-노름 기준)
RQ5최악의 $\ell_\infty$-오차 경계가 $\frac{1}{(1-\gamma)^5}$로 실제로 달성되는 문제 인스턴스가 존재하는가?

주요 결과

논문은 다항식 스텝 사이즈에 대해 worst case 스케일링이 $\frac{1}{(1-\gamma)^5}$인 현재까지 알려진 가장 날카운 비점근적 $\ell_\infty$-노름 경계를 확립한다.
특정 '어려운' MDP 예제에서 이론은 $\ell_\infty$-노름에서 $\epsilon$-정확도를 달성하기 위해 $\frac{1}{(1-\gamma)^4\epsilon^2}$회의 반복이 필요하다고 예측하며, 시뮬레이션은 이 예측이 경험적으로 날카로움을 확인한다.
$Q$-학습의 $\ell_\infty$-기반 표본 복잡도는 모델 기반 $Q$-반복에 비해 열 劣하며, 후자는 $\frac{1}{(1-\gamma)^3\epsilon^2}$ 스케일링을 달성한다.
유도된 경계는 비어 있는 분산 구조를 가진 구성된 문제 인스턴스에서의 시뮬레이션 연구를 통해 어떤 방식으로도 향상될 수 없음을 입증한다.
분석은 $Q$-학습의 수렴 속도가 할인 인자 $\gamma$에 의해 본질적으로 제한되며, 유리한 경우 $\ell_\infty$-오차가 $\frac{1}{(1-\gamma)^4\epsilon^2}$ 스케일링을 따른다는 것을 드러낸다.
이 프레임워크는 코어 단조성과 준수축성 연산자를 갖는 임의의 스 tochastic approximation 알고리즘에 일반적으로 적용 가능하며, $Q$-학습을 초월해 행렬 기반 문제와 같은 다른 설정으로도 확장 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.