QUICK REVIEW

[논문 리뷰] Variance-reduced $Q$-learning is minimax optimal

Martin J. Wainwright|arXiv (Cornell University)|2019. 06. 11.

Machine Learning and Algorithms참고 문헌 40인용 수 44

한 줄 요약

가변-감소된(variance-reduced) Q-learning의 유한 MDP에 대한 변형을 도입하고 γ-할인에서 이를 입증하며, 할인 복잡도에서 로그 요인까지 minimax-최적의 샘플 복잡도를 달성함을 증명한다. 또한 1/(1−γ)에 대한 의존성에서 일반 Q-learning에 비해 상당한 개선을 보인다.

ABSTRACT

We introduce and analyze a form of variance-reduced $Q$-learning. For $γ$-discounted MDPs with finite state space $\mathcal{X}$ and action space $\mathcal{U}$, we prove that it yields an $ε$-accurate estimate of the optimal $Q$-function in the $\ell_\infty$-norm using $\mathcal{O} \left(\left(\frac{D}{ ε^2 (1-γ)^3} ight) \; \log \left( \frac{D}{(1-γ)} ight) ight)$ samples, where $D = |\mathcal{X}| imes |\mathcal{U}|$. This guarantee matches known minimax lower bounds up to a logarithmic factor in the discount complexity. In contrast, our past work shows that ordinary $Q$-learning has worst-case quartic scaling in the discount complexity.

연구 동기 및 목표

γ-할인 finite MDP에서 Q-learning에서 분산 감소 방법의 연구를 동기부여한다.
SVRG에서 영감을 받은 실용적인 분산 감소 Q-learning 알고리즘을 제안한다.
비점근적이고 고확률 수렴 보장을 확립한다.
할인 복잡도 1/(1−γ)에서 로그 요인까지 minimax-최적 샘플 복잡도를 보인다.
이전 Q-learning 결과와 비교하고 (1−γ)에 대한 의존성 개선점을 확인한다.

제안 방법

볼만 업데이트의 몬테카를로 근사치를 사용하는 분산 감소 Q-learning 연산자를 정의하고 편향되지 않은 재중심화(recentering)를 도입한다.
에폭으로 구성된 알고리즘을 구성하여 분산 감소 업데이트 θk+1 = (1−λk)θk + λk(bTk(θk) − bTk(θ) + eTN(θ))를 사용하며 여기에서 eTN(θ)는 T(θ)의 편향되지 않은 추정이다.
편향과 분산을 제어하기 위해 에폭 길이 K와 재중심화 샘플 크기 Nm을 사용하고, 스텝 크기를 λk = 1/(1+(1−γ)k)로 설정한다.
에폭을 M개 가진 RunEpoch 및 전체 알고리즘 Variance-reduced Q-learning을 제시하되 각 에폭은 길이 K이고 재중심화 샘플 Nm이다.
매개변수 선택을 도출한다: K = c1 log(8MD(1−γ)−δ)/( (1−γ)3 ), Nm = c2 4m log(8MD/δ)/( (1−γ)2 ).
에폭 전개에 걸친 기하수적 수렴을 증명하고, 총 샘플 수의 경계가 로그 요인에 의존하는 최적화된 결과를 제공한다.

실험 결과

연구 질문

RQ1Q-러닝의 간단한 분산 감소 확장이 ℓ∞-노름에서 최적의 Q-함수를 추정하기 위한 minimax-최적 샘플 복잡도를 달성할 수 있는가?
RQ2분산 감소 Q-learning에서 편향과 분산의 균형을 맞추기 위해 에폭 구조, 재중심화 및 스텝 크기를 어떻게 설계해야 하는가?
RQ3제안된 방법에 대한 정확한 비점근적이고 고확률 보장(수렴 속도와 샘플 복잡도)은 무엇인가?
RQ4(1−γ)에 대한 의존성 측면에서 제안된 방법이 기존 Q-learning 및 Q-value 반복 방법과 비교하여 어떤 차이가 있는가?

주요 결과

분산 감소 Q-learning 알고리즘이 에폭에 걸쳐 고확률로 기하적 수렴을 달성한다.
M 에폭 이후의 최종 오차가 ∥θM − θ∗∥∞ ≤ ∥σ(θ∗)∥∞ + ∥θ∗∥∞(1−γ)2M 의 확률은 적어도 1−δ이다.
ϵ-정확도를 달성하기 위한 총 샘플 복잡도는 로그-요인 의존 표현으로 경계가 주어지며, 일반 Q-learning보다 개선되고 로그 요인까지 minimax 하한에 부합한다.
최대의 γ-할인 MDP들(rmax으로 한정된 보상)에서 이 방법은 (1−γ)3의 세제곱 스케일링을 달성하며, 로그 요인에 의해서만 차이가 난 minimax 하한과 일치한다(정리 1).
초기화를 θ∗에서 rmax√(1−γ) 이내에서 시작하면 minimax-최적 샘플 복잡도를 얻는다(정리 1).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.