QUICK REVIEW

[논문 리뷰] Reinforcement Learning with General Value Function Approximation: Provably Efficient Approach via Bounded Eluder Dimension

Ruosong Wang, Ruslan Salakhutdinov|arXiv (Cornell University)|2020. 05. 21.

Reinforcement Learning in Robotics참고 문헌 67인용 수 30

한 줄 요약

일반 가치 함수 근사를 갖는 RL에 대해 명시적으로 증명된 효율적인 Q-learning 알고리즘을 제시하며, 후회는 함수 클래스의 엘더 차원과 로그 커버링 수에 의존하고 특정 모델을 가정하지 않는다. 안정적인 UCB 유사 보너스와 효율성을 위한 데이터 하위 샘플링 스킴을 사용한다.

ABSTRACT

Value function approximation has demonstrated phenomenal empirical success in reinforcement learning (RL). Nevertheless, despite a handful of recent progress on developing theory for RL with linear function approximation, the understanding of general function approximation schemes largely remains missing. In this paper, we establish a provably efficient RL algorithm with general value function approximation. We show that if the value functions admit an approximation with a function class $\mathcal{F}$, our algorithm achieves a regret bound of $\widetilde{O}(\mathrm{poly}(dH)\sqrt{T})$ where $d$ is a complexity measure of $\mathcal{F}$ that depends on the eluder dimension [Russo and Van Roy, 2013] and log-covering numbers, $H$ is the planning horizon, and $T$ is the number interactions with the environment. Our theory generalizes recent progress on RL with linear value function approximation and does not make explicit assumptions on the model of the environment. Moreover, our algorithm is model-free and provides a framework to justify the effectiveness of algorithms used in practice.

연구 동기 및 목표

선형 설정을 넘어서는 일반 가치 함수 근사를 갖는 RL을 동기 부여하고 다룬다.
일반 함수 클래스 F에서 작동하는 증명 가능한 효율성을 갖는 모델 프리 Q-learning 알고리즘을 개발한다.
알고리즘의 후회를 엘더 차원과 F의 커버링 수 및 상태-행동 공간의 커버링 수의 관점에서 특징지운다.

제안 방법

Q-함수 근사를 위한 일반 함수 클래스 F를 정의하고 Bellman-백업 호환성: for any V, there exists f_V in F with f_V(s,a) = r(s,a) + sum_{s'} P(s'|s,a) V(s').
Replay 버퍼에 대해 최소제곱 적합으로 반복적으로 Q^k_h를 계산하고 탐사를 권장하기 위해 Stable UCB 보너스 b^k_h를 추가한다.
데이터 기반의 신뢰 구간 F^k_h와 그 너비 w(F^k_h, s,a)를 보너스로 사용하여 Q^k_h가 높은 확률로 과대추정되도록 한다.
데이터 세트를 하위 샘플링하고 보너스의 복잡성을 제어하기 위해 중요도 샘플링 기반의 민감도 샘플링을 통해 안정성을 도입한다.
그릴 1(F-LSVI)로 Q-값과 그리디 정책의 구성과 Algorithm 3(Bonus)를 통해 안정적 보너스를 생성하는 알고리즘을 제시한다.
Assumption 1 하에서 도달 가능한 dim_E(F, δ/T^3) 및 커버링 수 N(F, δ/T^2)와 N(S×A, δ/T)의 함수로 후회를 정량화한다.

실험 결과

연구 질문

RQ1모델 기반 가정을 두지 않고 일반 함수 근사로 RL에서 증명 가능한 효율성을 달성할 수 있는가?
RQ2엘더 차원과 가치 함수 클래스의 커버링 수가 모델 프리 함수 근사 RL 알고리즘의 후회를 어떻게 지배하는가?
RQ3안정적 보너스와 데이터 하위 샘플링 같은 실용적 메커니즘이 탐색과 계산 효율성을 어떻게 보장하는가?
RQ4제안된 접근 방식이 선형 함수 근사 및 일반화 선형 함수 근사에 대한 기존 결과와 어떻게 관련되거나 일반화되는가?

주요 결과

알고리즘은 H^2 T 의 의존성과 dim_E(F, δ/T^3) 및 커버링 수의 로그 요인을 포함하는 복잡성 항과 함께 후회 한계를 달성한다.
테이블형 RL의 경우, 이 경계는 기존의 테이블 기반 결과와 비슷한 형태로 축소되며, 일반성으로 인한 보다 나쁜 순진한 경계가 있음을 인정한다.
F가 d-차원 선형 또는 일반화 선형일 때, dim_E(F, ε) = O(d log(1/ε)) 또는 동등한 경계가 성립하여 해당 복잡성 항과 로그에 비례하는 후회로 귀결된다.
이 접근법은 선형 함수 근사에 의한 RL을 일반화하고 명시적 환경 다이나믹스를 가정하지 않는 모델 프리 프레임워크를 제공한다.
Stable Bonus Function 및 Sensitivity-Sampling은 데이터 세트 크기를 제어하고 Q의 확실한 과대추정을 유지함으로써 계산적으로 실현 가능한 구현을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.