QUICK REVIEW

[논문 리뷰] A Finite-Time Analysis of Q-Learning with Neural Network Function Approximation

Pan Xu, Quanquan Gu|arXiv (Cornell University)|2019. 12. 10.

Reinforcement Learning in Robotics인용 수 18

한 줄 요약

이 논문은 비-i.i.i.d. 데이터에서 마코프 결정 과정(MDP)으로부터 생성된 환경에서, 딥 ReLU 신경망 함수 근사와 함께 Q-학습의 최초의 유한시간 분석을 제시한다. 네트워크가 충분히 과다파ram터화되어 있을 경우, 최적의 Q-값 함수로의 수렴 속도가 $O(1/ar{\sqrt{T}})$임을 입증하며, 선형 함수 근사에서의 속도를 따라가며 현실적인 강화학습 환경에서 딥 신경망에 대한 이론적 보장을 확장한다.

ABSTRACT

Q-learning with neural network function approximation (neural Q-learning for short) is among the most prevalent deep reinforcement learning algorithms. Despite its empirical success, the non-asymptotic convergence rate of neural Q-learning remains virtually unknown. In this paper, we present a finite-time analysis of a neural Q-learning algorithm, where the data are generated from a Markov decision process and the action-value function is approximated by a deep ReLU neural network. We prove that neural Q-learning finds the optimal policy with $O(1/\\sqrt{T})$ convergence rate if the neural function approximator is sufficiently overparameterized, where $T$ is the number of iterations. To our best knowledge, our result is the first finite-time analysis of neural Q-learning under non-i.i.d. data assumption.

연구 동기 및 목표

비-i.i.i.d. 환경에서 딥 Q-학습의 경험적 성공과 이론적 이해 간 격차를 메우기 위해.
실제 마코프 결정 과정(MDP) 데이터 생성 환경에서 딥 신경망 함수 근사와 함께 Q-학습의 유한시간 수렴 분석을 제공하기 위해.
비선형적이고 깊은 네트워크의 추가 복잡성에도 불구하고, 선형 함수 근사에서 알려진 속도와 동일한 수렴 속도를 신경망 Q-학습에 확립하기 위해.
이전 이론적 연구에서 흔히 사용되던 비현실적인 i.i.i.d. 데이터 가정을 완화하기 위해.

제안 방법

시간 차분(TD) 업데이트를 사용하는 Q-학습 프레임워크에서 행동가치 함수를 깊이 있는 ReLU 신경망으로 근사한다.
TD 오차를 기반으로 경사하강법을 사용해 네트워크 가중치를 업데이트하며, MDP에서 샘플된 트레이젝터리에 기반해 네트워크를 훈련시킨다.
가중치 업데이트의 동역학을 분석하기 위해 초기화 근처에서 신경망을 국소적으로 선형화한다.
과다파aram터화된 네트워크를 다루기 위해 신경접선핵(NTK) 영역에 기반한 새로운 분석 프레임워크를 도입한다.
매개변수 공간의 기하학적 구조와 수렴 행동을 기술하기 위해 마할라노비스 노름과 표본 공분산 행렬을 사용한다.
NTK의 성질과 과다파aram터화 가정을 활용해 기대값을 갖는 TD 업데이트에 대해 수축 유사 부등식을 수립한다.

실험 결과

연구 질문

RQ1비-i.i.i.d. 데이터 하에서 딥 신경망 함수 근사와 함께 Q-학습의 유한시간 수렴 속도를 확립할 수 있는가?
RQ2비선형적이고 깊은 아키텍처에도 불구하고, 신경망 Q-학습의 수렴 속도가 선형 함수 근사와 동일한가?
RQ3과다파라미터화가 비-i.i.i.d. 환경에서 딥 Q-학습의 수렴을 보장하는 데 어떤 역할을 하는가?
RQ4분석은 Q-학습에서의 딥 신경망의 비凸성과 비선형 동역학을 어떻게 고려하는가?

주요 결과

네트워크가 충분히 과다파라미터화되어 있을 경우, 신경망 Q-학습은 최적의 Q-값 함수로 $O(1/\sqrt{T})$ 수렴 속도를 달성한다.
비-i.i.i.d. 데이터와 비선형 함수 근사에도 불구하고, 선형 함수 근사에서 알려진 최고 수준의 속도와 동일한 수렴 속도를 확보한다.
이전 연구들이 i.i.i.d. 데이터를 가정하는 것과 달리, 이 연구는 현실적인 MDP 데이터 생성 과정을 가정한다.
네트워크가 충분히 넓어져서 훈련 중에 거의 선형 동역학을 유지하는 신경접선핵(NTK) 영역에서 결과가 도출된다.
수렴은 신경망 함수 클래스의 근사 오차까지의 최적 Q-값 함수로 이루어진다.
이 분석은 DQN과 같은 딥 Q-학습 알고리즘이 복잡한 환경에서 경험적으로 성공하는 데 이론적 근거를 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.