[논문 리뷰] End-to-End Efficient RL for Linear Bellman Complete MDPs with Deterministic Transitions
이 논문은 결정적 전이(deterministic transitions)를 가지는 선형 벨만 완전성(linear Bellman complete) MDP에서 강화 학습을 위한 엔드-투-엔드의 계산적으로 효율적인 알고리즘을 제시하며, 대규모 행동 공간과 확률적 보상/초기 상태를 다룬다. 다항적 샘플 및 계산 복잡도로의 엔드-투-엔드 접근법과 행동 공간 크기에 독립적인 대규모 행동 공간 방법을 함께 제공한다.
We study reinforcement learning (RL) with linear function approximation in Markov Decision Processes (MDPs) satisfying \emph{linear Bellman completeness} -- a fundamental setting where the Bellman backup of any linear value function remains linear. While statistically tractable, prior computationally efficient algorithms are either limited to small action spaces or require strong oracle assumptions over the feature space. We provide a computationally efficient algorithm for linear Bellman complete MDPs with \emph{deterministic transitions}, stochastic initial states, and stochastic rewards. For finite action spaces, our algorithm is end-to-end efficient; for large or infinite action spaces, we require only a standard argmax oracle over actions. Our algorithm learns an $\varepsilon$-optimal policy with sample and computational complexity polynomial in the horizon, feature dimension, and $1/\varepsilon$.
연구 동기 및 목표
- 함수 근사와 결정적 동역학을 갖는 RL의 확장 가능 설정으로서 선형 Bellman 완전성을 동기화하고 형식화한다.
- 결정적 전이 하에서 유한 및 대형 행동 공간에 대해 계산적으로 효율적인 알고리즘을 개발한다.
- 주어진 가정 하에서 horizon, 특징 차원, 그리고 1/ε에 다항적 의존으로 ε-근사 최적 정책 학습을 가능하게 한다.
- 제한적 Q-함수 매개변수 경계를 우회하고 보상 매개변수 추정과 커버에 의존하는 방법을 보여준다.
제안 방법
- barycentric spanners와 optimistic constraint propagation(OCP) 오라클을 사용하여 계층별로 정책 커버 층을 구축하는 Phase I 탐사.
- 규제화된 보상 추정과 결정적 보상을 이용한 OCP를 통한 계획을 통해 Phase II exploitation을 수행(유한 액션).
- 대규모 행동 공간의 경우 OCP를 보상 매개변수 추정과 정확한 회귀를 달성하는 커버리지 정책 Ψh 및 spanner Γh를 이용한 FQI로 대체한다.
- Phase II에서는 릿지 회귀를 사용하여 보상 매개변수를 추정하고 결정적 프록시 보상을 구성하여 계획을 수행한다.
- Assumptions 2.1 및 2.2 하에서 ε-하위 최적성으로 높은 확률의 엔드-투-엔드 보장을 제공한다.
실험 결과
연구 질문
- RQ1결정적 전이와 선형 Bellman 완전을 갖는 MDP에서 근사적인 정책 학습이 가능한 계산적으로 효율적인 알고리즘으로 거의 최적의 정책 학습을 달성할 수 있는가?
- RQ2비용이 많이 드는 선형 최적화나 경계된 Q 가정에 의존하지 않고 정책 커버를 구성하고 엔드-투-엔드 학습을 수행하는 방법은 무엇인가?
- RQ3주어진 가정 하에서 유한 및 대형 행동 공간에서의 샘플 및 계산 복잡도는 무엇인가?
- RQ4확률적 보상을 결정론적 계획 문제로 축소함으로써 어떻게 수용할 수 있는가?
주요 결과
- 유한 행동 공간에 대한 엔드-투-엔드 알고리즘은 d, H, 1/ε에서 다항적 샘플 및 계산 복잡도로 ε-최적성에 도달한다.
- 대규모 또는 무한한 행동 공간의 경우 argmax 오라클이 충분하며, 이 접근법은 |A|에 의존하지 않고 d, H, 1/ε에서 다항적 복잡도를 유지한다.
- Phase I은 계층별로 barycentric spanners와 OCP 기반 LinOpt plus Vec 추정으로 d크기의 정책 커버 Γh를 구성한다; Phase II는 보상 매개변수를 추정하고 결정적 프록시를 최적화한다.
- 제시된 가정 하에서 엔드-투-엔드 스킴(Algorithm 2 및 Algorithm 3)은 높은 확률로 ε-하위 최적의 정책을 생성한다.
- 스페셜한 대형 행동 공간 방법으로 FQI를 커버 Ψh와 spanners Γh와 함께 사용하면 같은 ε 보장을 얻으며, 복잡도는 |A|에 의존하지 않는다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.