Skip to main content
QUICK REVIEW

[논문 리뷰] Asymptotically Efficient Off-Policy Evaluation for Tabular Reinforcement Learning

Minghao Yin, Yu-Xiang Wang|arXiv (Cornell University)|2020. 01. 29.
Age of Information Optimization인용 수 24
한 줄 요약

이 논문은 유한한 행동 공간을 가진 표본형 강화 학습에서 이완 정책 평가를 위한 수정된 무시된 중요도 샘플링(TMIS) 추정량을 제안한다. 이 추정량은 점점 커지는 평균 제곱오차의 크레머-라오 하한을 점차적으로 달성하며, 이는 이전의 MIS 방법에 비해 $H$-요인 갭을 제거함으로써 향상된 것이다. 이 방법은 데이터 분할과 편향 보정 추정량을 사용하여 분산이 수평선 $H$에 따라 최적으로 스케일링되도록 하며, 행동 공간이 유한할 경우 $O(H^2/n)$의 평균 제곱오차를 달성한다.

ABSTRACT

We consider the problem of off-policy evaluation for reinforcement learning, where the goal is to estimate the expected reward of a target policy $\\pi$ using offline data collected by running a logging policy $\\mu$. Standard importance-sampling based approaches for this problem suffer from a variance that scales exponentially with time horizon $H$, which motivates a splurge of recent interest in alternatives that break the "Curse of Horizon" (Liu et al. 2018, Xie et al. 2019). In particular, it was shown that a marginalized importance sampling (MIS) approach can be used to achieve an estimation error of order $O(H^3/ n)$ in mean square error (MSE) under an episodic Markov Decision Process model with finite states and potentially infinite actions. The MSE bound however is still a factor of $H$ away from a Cramer-Rao lower bound of order $\\Omega(H^2/n)$. In this paper, we prove that with a simple modification to the MIS estimator, we can asymptotically attain the Cramer-Rao lower bound, provided that the action space is finite. We also provide a general method for constructing MIS estimators with high-probability error bounds.

연구 동기 및 목표

  • 표준 중요도 샘플링의 높은 분산 문제를 해결하며, 특히 시간 수평선 $H$에 따라 지수적으로 증가하는 문제를 다루기 위해.
  • 기존의 무시된 중요도 샘플링 추정량과 크레머-라오 하한 사이의 갭을 메우기 위해, 분산 스케일링을 향상시켜 $\Omega(H^2/n)$의 하한을 달성하기 위해.
  • 유한한 행동 공간에서 점차적으로 효율성을 달성하는 이론적으로 탄탄한 추정량을 개발하기 위해.
  • 데이터 분할과 농도 불등식을 활용하여 추정량의 고확률 오차 한계를 도출하기 위해.
  • 비정상적이고 시간에 따라 변하는 표본형 MDP에서의 경험적 검증을 통해 방법의 우수성을 입증하기 위해.

제안 방법

  • 원래 MIS 추정량의 편향을 보정하기 위해 가상의 추정량을 도입하여 편향이 제어되는 수정된 무시된 중요도 샘플링 추정량(TMIS)을 제안한다.
  • 데이터 분할을 통해 데이터셋을 $N$개의 독립적인 폴드로 나누며, 각 폴드는 별개의 TMIS 추정량을 계산하는 데 사용된다.
  • 모든 $N$개의 추정량을 평균 내어 분산을 줄이면서도 불편성 유지하기 위해.
  • 농도 불등식과 유니온 바운드를 적용하여 최종 추정량의 고확률 오차 한계를 유도하기 위해.
  • 분산과 편향을 분석하기 위해 가상의 표본형 MIS 추정량을 도입하여 추정량 성능에 대한 이론적 제어를 가능하게 하기 위해.
  • 유한한 상태와 행동 공간을 가진 에피소드형 MDP의 구조를 활용하여 최적의 $O(H^2/n)$ 평균 제곱오차 스케일링을 유도하기 위해.

실험 결과

연구 질문

  • RQ1수정된 무시된 중요도 샘플링 추정량은 표본형 MDP에서 이완 정책 평가에 대해 크레머-라오 하한을 달성할 수 있는가?
  • RQ2제안된 데이터 분할 접근법은 추정량의 분산을 줄이고, 이전의 MIS 방법에서 존재하던 $H$-요인 갭을 제거하는가?
  • RQ3유한한 행동 공간에서 제안된 추정량의 고확률 오차 한계는 무엇인가?
  • RQ4비정상적이고 시간에 따라 변하는 MDP에서 추정량의 성능은 표준 IS 및 SMIS와 비교해 어떻게 되는가?
  • RQ5행동 공간이 유한할 경우 비.i.i.d. 및 비정상적 동역학 조건에서도 추정량은 점차적으로 효율성을 유지할 수 있는가?

주요 결과

  • 제안된 TMIS 추정량은 점차적으로 $\Omega(H^2/n)$ 크레머-라오 하한을 달성하며, 평균 제곱오차가 $O(H^2/n)$로 나타나 이전의 MIS 방법에서 존재하던 $H$-요인 갭을 해소한다.
  • 데이터 분할을 적용한 TMIS의 변형은 고확률 오차 한계 $\widetilde{O}(\sqrt{H^2SA/n})$를 달성하며, 로그 인자 외에는 이론적 하한과 정확히 일치한다.
  • 실험에서 사용된 비정상적이고 시간에 따라 변하는 표본형 MDP에서, TMIS 추정량은 모든 정책에 대해 상대적 RMSE가 $\widetilde{O}(\sqrt{H^3 S^2 A / n})$로 나타났다.
  • 경험적 결과는 TMIS가 표준 IS 및 SMIS보다 RMSE 측면에서 뛰어나며, 특히 수평선 $H$가 증가할수록 그 우월성이 두드러진다.
  • 이론적 분석은 행동 공간이 유한할 경우 추정량이 점차적으로 효율적이며, 분산이 $H^2/n$로 최적 스케일링됨을 확인한다.
  • 데이터 분할의 사용은 더 날카운 농도 한계를 가능하게 하며, 비.i.i.d. 및 비정상적 환경에서도 추정량이 일관성을 유지함을 보장한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.