Skip to main content
QUICK REVIEW

[논문 리뷰] Exploration-Enhanced POLITEX

Yasin Abbasi-Yadkori, Nevena Lazic|arXiv (Cornell University)|2019. 08. 27.
Advanced Bandit Algorithms Research참고 문헌 30인용 수 19
한 줄 요약

이 논문은 선형 함수 근사와 평균 비용 MDP에서의 회귀 보장 향상을 위해 사전에 훈련된 빠르게 혼합되는 탐색 정책을 통합한 강화학습 알고리즘인 탐색 강화 POLITEX(EE-Politex)를 제안한다. 기존 방법들과 달리 모든 정책이 탐색을 수행할 필요가 없으며, EE-Politex는 최소 제곱 몬테카를로(least-squares Monte Carlo)를 통해 탐색 정책의 상태 커버리지로 가치 함수 추정을 수행함으로써 균일한 탐색 가정 없이도 하위선형 회귀를 달성한다.

ABSTRACT

We study algorithms for average-cost reinforcement learning problems with value function approximation. Our starting point is the recently proposed POLITEX algorithm, a version of policy iteration where the policy produced in each iteration is near-optimal in hindsight for the sum of all past value function estimates. POLITEX has sublinear regret guarantees in uniformly-mixing MDPs when the value estimation error can be controlled, which can be satisfied if all policies sufficiently explore the environment. Unfortunately, this assumption is often unrealistic. Motivated by the rapid growth of interest in developing policies that learn to explore their environment in the lack of rewards (also known as no-reward learning), we replace the previous assumption that all policies explore the environment with that a single, sufficiently exploring policy is available beforehand. The main contribution of the paper is the modification of POLITEX to incorporate such an exploration policy in a way that allows us to obtain a regret guarantee similar to the previous one but without requiring that all policies explore environment. In addition to the novel theoretical guarantees, we demonstrate the benefits of our scheme on environments which are difficult to explore using simple schemes like dithering. While the solution we obtain may not achieve the best possible regret, it is the first result that shows how to control the regret in the presence of function approximation errors on problems where exploration is nontrivial. Our approach can also be seen as a way of reducing the problem of minimizing the regret to learning a good exploration policy. We believe that modular approaches like ours can be highly beneficial in tackling harder control problems.

연구 동기 및 목표

  • 모든 정책이 상태 공간을 균일하게 탐색해야 가치 함수 추정 오차를 제어할 수 있는 기존 Politex 변종의 한계를 해결한다.
  • 더 약한 탐색 가정 하에 기능 근사와 함께 평균 비용 강화학습에서 회귀 최소화를 가능하게 한다.
  • 탐색 정책 학습과 정책 최적화를 분리하여 모듈러한 RL 시스템 설계를 가능하게 한다.
  • 희박 보상 환경인 희박 보상 CartPole 및 격자형 MDP와 같은 어려운 환경에서 명시적 탐색의 경험적 이점을 입증한다.
  • 단일 사전 존재 탐색 정책을 기반으로 한 가치 추정 오차 및 회귀 보장 이론적 보장을 제공한다.

제안 방법

  • 목표 정책을 사용한 롤아웃과 사전에 훈련된 탐색 정책의 정적 분포에서 시작하는 하이브리드 데이터 수집 기반의 방식을 도입한다.
  • 이러한 하이브리드 온-폴리시 및 오프-폴리시 트레이젝터리에서 최소 제곱 몬테카를로(Least-Squares Monte Carlo, LSMC)를 적용하여 가치 함수를 추정한다.
  • 탐색 정책의 빠른 혼합 특성을 활용해 충분한 상태 커버리지를 확보함으로써, 목표 정책이 탐욕적일 경우에도 신뢰할 수 있는 가치 추정이 가능하도록 한다.
  • LSMC로 탐색 정책의 초기 상태 분포 하에서 생성된 데이터로부터 유도된 가치 추정치를 사용하도록 Politex 알고리즘을 수정한다.
  • 선형 함수 근사 하에서 LSMC의 추정 오차를 분석하여, 이 오차가 탐색 정책의 혼합 시간과 특징 커버리지에 비례함을 보여준다.
  • LSMC 추정기와 Politex를 통합하여, 이전 연구보다 더 약한 가정 하에 하위선형 회귀를 증명한다.

실험 결과

연구 질문

  • RQ1모든 정책이 탐색을 수행할 필요 없이 선형 함수 근사와 함께 평균 비용 MDP에서 하위선형 회귀를 달성할 수 있는가?
  • RQ2단일 사전 훈련된 탐색 정책을 어떻게 활용하여 모델리스 강화학습에서 가치 함수 추정을 향상시키고 회귀를 줄일 수 있는가?
  • RQ3목표 정책과 탐색 정책에서 유래한 하이브리드 온-폴리시 및 오프-폴리시 데이터가 선형 함수 근사에서 가치 추정 오차에 어떤 영향을 미치는가?
  • RQ4희박 보상 환경인 CartPole의 막대기 들기 작업에서 명시적 탐색이 성능 향상에 뚜렷한 기여를 하는가?
  • RQ5균일한 탐색 가정을 단일 빠르게 혼합되는 탐색 정책으로 대체했을 때, Politex의 회귀 보장이 유지되는가?

주요 결과

  • EE-Politex는 균일하게 혼합되는 MDP에서 Õ(T^{3/4} + ε₀T)의 회귀 한계를 달성하며, 이는 이전 Politex 보장과 동일한 수준이지만 더 약한 가정 하에서 달성된다.
  • 탐색 정책이 빠르게 혼합될 경우, 하이브리드 데이터에서 LSMC를 사용한 가치 추정 오차는 Õ(√(1/m)) 비례로 스케일링되며, 이는 전체 정책 탐색 없이도 안정적인 추정이 가능함을 의미한다.
  • 2×2 격자형 환경에서는 모든 방법이 최적 정책으로 수렴하지만, 격자 크기가 증가함에 따라 탐색 없이 작동하는 Politex는 학습에 실패하고, EE-Politex는 성공한다.
  • 희박 보상 CartPole 막대기 들기 환경에서 표준 Politex는 최적 정책을 학습하지 못하며(활동을 멈춤), EE-Politex는 탐색 정책을 활용해 막대기를 안정적으로 유지하는 데 성공한다.
  • 한 번의 방문만을 기반으로 한 LSMC 추정은 스케일이 커질수록 부족한 샘플로 인해 성능이 열 劣하므로, 안정적인 추정을 위해서는 더 긴 롤아웃 또는 다수의 방문이 필요함을 시사한다.
  • Atari Ms. Pac-Man 환경에서는 탐색 정책을 혼합해도 성능 향상이 없었으며, 이는 EE-Politex의 이점이 환경에 따라 달라지며 고차원적이고 희박 보상 환경에서 가장 효과적임을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.