Skip to main content
QUICK REVIEW

[논문 리뷰] Near-optimal Reinforcement Learning in Factored MDPs

Ian Osband, Benjamin Van Roy|arXiv (Cornell University)|2014. 03. 15.
Advanced Bandit Algorithms Research참고 문헌 21인용 수 54
한 줄 요약

이 논문은 구조적 표현을 활용하여 전체 상태 및 행동 공간이 아닌 매개변수 수에 따라 다항식적으로 확장되는, 인자 분해된 마르코프 결정 과정(FMDPs)에서 근사 최적의 손실 한계를 달성하는 두 가지 강화 학습 알고리즘—PSRL 및 UCRL-Factored—을 제안한다. 주요 기여는 손실 한계가 인자 분해된 매개변수 수에 의존함으로써 기존 표본 기반 방법이 실패하는 고차원 시스템에서도 효율적인 학습을 가능하게 한다.

ABSTRACT

Any reinforcement learning algorithm that applies to all Markov decision processes (MDPs) will suffer $Ω(\sqrt{SAT})$ regret on some MDP, where $T$ is the elapsed time and $S$ and $A$ are the cardinalities of the state and action spaces. This implies $T = Ω(SA)$ time to guarantee a near-optimal policy. In many settings of practical interest, due to the curse of dimensionality, $S$ and $A$ can be so enormous that this learning time is unacceptable. We establish that, if the system is known to be a \emph{factored} MDP, it is possible to achieve regret that scales polynomially in the number of \emph{parameters} encoding the factored MDP, which may be exponentially smaller than $S$ or $A$. We provide two algorithms that satisfy near-optimal regret bounds in this context: posterior sampling reinforcement learning (PSRL) and an upper confidence bound algorithm (UCRL-Factored).

연구 동기 및 목표

  • 표본 기반 강화 학습에 비해 상태 및 행동 공간이 너무 큰 대규모 MDP에서의 차원의 극복 문제를 해결하기 위해.
  • MDP의 구조적 희박성에 기반한 인자 분해 표현을 통해 학습 복잡도를 감소시키는 강화 학습 알고리즘을 개발하기 위해.
  • 전체 상태 수 |S|나 행동 수 |A| 대신 인자 분해 모델의 매개변수 수에 따라 스케일링되는 인자 분해된 MDP에 대해 근사 최적의 손실 한계를 확립하기 위해.
  • 후행 샘플링 및 상한 신뢰도 방법이 인자 분해된 MDP에 적응되어 증명 가능한 효율적인 손실 한계를 달성할 수 있는지 보여주기 위해.

제안 방법

  • 에이전트가 사후 분포에서 가능한 MDP를 샘플링하고 샘플된 모델에서 최적으로 행동하는 인자 분해된 MDP에 대한 PSRL(후행 샘플링 강화 학습)을 제안한다.
  • 전이 및 보상 함수에 대한 신뢰 집합을 인자 분해된 구조를 사용해 유지하는 상한 신뢰도 알고리즘인 UCRL-Factored를 도입한다.
  • 고차원 상태 및 행동 공간의 압축 표현을 가능하게 하는 동적 베이지안 네트워크(DBNs)를 사용하여 인자 분해된 MDP의 구조를 표현한다.
  • 실제 전이 및 보상 추정치에 대한 L1 바OUNDS를 사용한 농도 불등식을 적용하여, 샘플된 모델가 신뢰 집합 내에 높은 확률로 포함되도록 보장한다.
  • 사후 샘플링의 보장 조건, 신뢰 집합의 타당성, 그리고 계획 오차 한계를 조합하여 손실 한계를 유도한다.
  • 계산 복잡도보다 통계적 효율성에 중점을 두고, 근사적인 FMDP 계획기(subroutine)를 기반으로 한다.

실험 결과

연구 질문

  • RQ1상태 및 행동 공간이 지수적으로 큰 경우, 강화 학습 알고리즘이 인자 분해된 MDP에서 근사 최적의 손실 한계를 달성할 수 있는가?
  • RQ2MDP의 인자 분해된 구조를 활용하면 손실 한계가 |S|나 |A| 대신 매개변수 수에 따라 스케일링되는가?
  • RQ3후행 샘플링 및 상한 신뢰도 방법을 인자 분해된 MDP에 적응시켜 이러한 한계를 달성할 수 있는가?
  • RQ4UCRL-Factored의 신뢰 집합 구축 방식이 DBN 구조를 어떻게 활용하여 손실 한계를 감소시키는가?
  • RQ5계획 오차와 모델 불확실성은 인자 분해된 환경에서 전체 손실 한계에 어떤 영향을 미치는가?

주요 결과

  • 제안된 PSRL 및 UCRL-Factored 알고리즘은 인자 분해된 MDP에서 근사 최적의 손실 한계를 달성하며, 손실 한계가 매개변수 수에 따라 O(√T)로 스케일링된다. |S|나 |A| 대비가 아니다.
  • PSRL의 손실 한계는 인자 분해된 매개변수 수에 따라 로그 및 상수 요소를 포함한 O(√T)이며, 정보 이론적 하한선에 로그 항을 제외하고는 정확히 일치한다.
  • 분석 결과, 두 알고리즘이 실측 전이 및 보상 추정치에 대한 농도 불등식을 사용하여 진정한 MDP가 높은 확률로 신뢰 집합 내에 유지됨을 보여준다.
  • 신뢰 집합은 L1 이격도 바OUNDS를 사용하여 구성되며, 이는 진정한 MDP가 높은 확률로 집합 내에 포함됨을 보장함으로써 타당한 사후 샘플링을 가능하게 한다.
  • 계획 오차가 유한하고 모델가 타당한 사후 분포에서 샘플링된다면, 손실 한계는 근사 계획에 대해 강건함을 입증한다.
  • 결과는 인자 분해된 구조(DBN)가 사전에 알려져 있고, 계획기가 블랙박스로 제공된다는 가정 하에 성립한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.