[논문 리뷰] Agnostic Q-learning with Function Approximation in Deterministic Systems: Tight Bounds on Approximation Error and Sample Complexity
이 논문은 결정론적 MDP에서 함수 근사와 함께 재귀 기반 Q-학습 알고리즘을 제안하며, 무지식 설정 하에서 최적의 표본 복잡도를 달성한다. 이는 근사 오차 δ가 O(ρ/√dim_E)일 때, O(dim_E)개의 트레이젝터리로 최적의 정책을 찾을 수 있음을 보여주는 날카운 경계를 확립함으로써, 무지식 강화학습에서 함수 근사에 대한 열린 문제를 해결한다.
The current paper studies the problem of agnostic $Q$-learning with function approximation in deterministic systems where the optimal $Q$-function is approximable by a function in the class $\mathcal{F}$ with approximation error $δ\ge 0$. We propose a novel recursion-based algorithm and show that if $δ= O\left(ρ/\sqrt{\dim_E} ight)$, then one can find the optimal policy using $O\left(\dim_E ight)$ trajectories, where $ρ$ is the gap between the optimal $Q$-value of the best actions and that of the second-best actions and $\dim_E$ is the Eluder dimension of $\mathcal{F}$. Our result has two implications: 1) In conjunction with the lower bound in [Du et al., ICLR 2020], our upper bound suggests that the condition $δ= \widetildeΘ\left(ρ/\sqrt{\mathrm{dim}_E} ight)$ is necessary and sufficient for algorithms with polynomial sample complexity. 2) In conjunction with the lower bound in [Wen and Van Roy, NIPS 2013], our upper bound suggests that the sample complexity $\widetildeΘ\left(\mathrm{dim}_E ight)$ is tight even in the agnostic setting. Therefore, we settle the open problem on agnostic $Q$-learning proposed in [Wen and Van Roy, NIPS 2013]. We further extend our algorithm to the stochastic reward setting and obtain similar results.
연구 동기 및 목표
- 결정론적 MDP에서 함수 근사와 함께 무지식 설정 하에서 증명 가능하게 효율적인 Q-학습 알고리즘을 설계하는 데 있어 열린 문제를 해결하기 위해.
- 다항 표본 복잡도를 위한 근사 오차 δ와 최적성 갭 ρ에 대한 必要 및 十分 조건을 규명하기 위해.
- 표본 복잡도에 대한 날카운 상한 및 하한 경계를 확립하여, 주어진 조건 하에서 Θ(dim_E)가 최적이 됨을 보여주기 위해.
- 유사한 보장을 유지하면서 확률적 보상 설정으로 분석을 확장하기 위해.
제안 방법
- 알고리즘은 상태-행동-가치 쌍의 데이터셋 Y를 오рак불을 통해 불확실성과 근사 오차를 기반으로 선택된 행동을 기반으로 점진적으로 구축하는 재귀 기반 접근법을 사용한다.
- 탐색을 안내하기 위해 최대 불확실성 오라클을 활용하여, Q-값 추정에서 높은 잠재적 오차를 가진 행동을 우선순위로 삼는다.
- 관측된 상태-행동-가치 쌍의 집합 Y를 유지하고, F 위에서 최소 제곱 회귀를 사용하여 Q-함수 f를 Y로부터 추정한다.
- 추정된 Q-값과 진짜 Q-값 간의 편차를 기반으로 탐색 루프의 정지 조건을 정의하여, 최적 Q-값으로부터 ρ/2 이내의 정책으로 수렴함을 보장한다.
- 표본 복잡도와 직접 연결되는 함수 클래스 복잡도 측정으로서 Eluder 차원 dim_E(F, ρ/4)를 분석에 활용한다.
- 유도법을 사용하여 MDP의 수평 수준에 대해 귀납적으로 분석하여, 모든 상태에서 추정된 Q-함수 f가 Q*를 ρ/2 이내로 근사함을 증명함으로써 최적의 정책 복원이 가능함을 보여준다.
실험 결과
연구 질문
- RQ1무지식 Q-학습과 함수 근사가 결정론적 시스템에서 다항 표본 복잡도를 달성할 수 있는 최소 근사 오차 δ는 무엇인가?
- RQ2무지식 Q-학습과 함수 근사가 결정론적 MDP에서 O(dim_E)의 표본 복잡도를 갖는 것이 날카로운가?
- RQ3최적 Q-함수의 정확한 선형화 가능성을 가정하지 않고도 증명 가능하게 효율적인 알고리즘을 설계할 수 있는가?
- RQ4최적성 갭 ρ가 근사 오차 δ와 Eluder 차원이 표본 복잡도를 결정하는 데 어떻게 관련되는가?
- RQ5제안된 알고리즘이 확률적 보상 환경에서도 표본 효율성을 유지하는가?
주요 결과
- δ = O(ρ / √dim_E)일 때, 알고리즘이 O(dim_E) 트레이젝터리로 최적의 정책을 찾음으로써 날카운 표본 복잡도 경계를 확립한다.
- δ = O(ρ / √dim_E) 조건은 다항 표본 복잡도를 위한 必要 및 十分 조건이며, 이는 이전 연구에서 유도된 일치하는 하한 경계로 확인된다.
- 조금도 무지식 설정 하에서도 표본 복잡도 Θ(dim_E)가 날카로운 것으로 밝혀져 Wen과 Van Roy(2013)가 제기한 열린 문제를 해결한다.
- ρ ≥ 6√2 δ √dim_E(F, ρ/4)라는 가정 하에서 알고리즘은 O(dim_E) 표본 복잡도를 달성하며, 이는 최적과 비최적 행동 간의 충분한 분리가 보장됨을 의미한다.
- 분석은 확률적 보상 설정으로까지 확장되며, 유사한 표본 복잡도 및 근사 보장을 유지한다.
- Eluder 차원을 복잡도 측정으로 사용함으로써 근사 오차와 표본 효율성 간의 정교한 무역오프를 특성화할 수 있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.