QUICK REVIEW

[논문 리뷰] Asymptotically Efficient Off-Policy Evaluation for Tabular Reinforcement Learning

Minghao Yin, Yu-Xiang Wang|arXiv (Cornell University)|2020. 01. 29.

Age of Information Optimization인용 수 24

한 줄 요약

이 논문은 유한한 행동 공간을 가진 표본형 강화 학습에서 이완 정책 평가를 위한 수정된 무시된 중요도 샘플링(TMIS) 추정량을 제안한다. 이 추정량은 점점 커지는 평균 제곱오차의 크레머-라오 하한을 점차적으로 달성하며, 이는 이전의 MIS 방법에 비해 $H$-요인 갭을 제거함으로써 향상된 것이다. 이 방법은 데이터 분할과 편향 보정 추정량을 사용하여 분산이 수평선 $H$에 따라 최적으로 스케일링되도록 하며, 행동 공간이 유한할 경우 $O(H^2/n)$의 평균 제곱오차를 달성한다.

ABSTRACT

We consider the problem of off-policy evaluation for reinforcement learning, where the goal is to estimate the expected reward of a target policy $\\pi$ using offline data collected by running a logging policy $\\mu$. Standard importance-sampling based approaches for this problem suffer from a variance that scales exponentially with time horizon $H$, which motivates a splurge of recent interest in alternatives that break the "Curse of Horizon" (Liu et al. 2018, Xie et al. 2019). In particular, it was shown that a marginalized importance sampling (MIS) approach can be used to achieve an estimation error of order $O(H^3/ n)$ in mean square error (MSE) under an episodic Markov Decision Process model with finite states and potentially infinite actions. The MSE bound however is still a factor of $H$ away from a Cramer-Rao lower bound of order $\\Omega(H^2/n)$. In this paper, we prove that with a simple modification to the MIS estimator, we can asymptotically attain the Cramer-Rao lower bound, provided that the action space is finite. We also provide a general method for constructing MIS estimators with high-probability error bounds.

연구 동기 및 목표

표준 중요도 샘플링의 높은 분산 문제를 해결하며, 특히 시간 수평선 $H$에 따라 지수적으로 증가하는 문제를 다루기 위해.
기존의 무시된 중요도 샘플링 추정량과 크레머-라오 하한 사이의 갭을 메우기 위해, 분산 스케일링을 향상시켜 $\Omega(H^2/n)$의 하한을 달성하기 위해.
유한한 행동 공간에서 점차적으로 효율성을 달성하는 이론적으로 탄탄한 추정량을 개발하기 위해.
데이터 분할과 농도 불등식을 활용하여 추정량의 고확률 오차 한계를 도출하기 위해.
비정상적이고 시간에 따라 변하는 표본형 MDP에서의 경험적 검증을 통해 방법의 우수성을 입증하기 위해.

제안 방법

원래 MIS 추정량의 편향을 보정하기 위해 가상의 추정량을 도입하여 편향이 제어되는 수정된 무시된 중요도 샘플링 추정량(TMIS)을 제안한다.
데이터 분할을 통해 데이터셋을 $N$개의 독립적인 폴드로 나누며, 각 폴드는 별개의 TMIS 추정량을 계산하는 데 사용된다.
모든 $N$개의 추정량을 평균 내어 분산을 줄이면서도 불편성 유지하기 위해.
농도 불등식과 유니온 바운드를 적용하여 최종 추정량의 고확률 오차 한계를 유도하기 위해.
분산과 편향을 분석하기 위해 가상의 표본형 MIS 추정량을 도입하여 추정량 성능에 대한 이론적 제어를 가능하게 하기 위해.
유한한 상태와 행동 공간을 가진 에피소드형 MDP의 구조를 활용하여 최적의 $O(H^2/n)$ 평균 제곱오차 스케일링을 유도하기 위해.

실험 결과

연구 질문

RQ1수정된 무시된 중요도 샘플링 추정량은 표본형 MDP에서 이완 정책 평가에 대해 크레머-라오 하한을 달성할 수 있는가?
RQ2제안된 데이터 분할 접근법은 추정량의 분산을 줄이고, 이전의 MIS 방법에서 존재하던 $H$-요인 갭을 제거하는가?
RQ3유한한 행동 공간에서 제안된 추정량의 고확률 오차 한계는 무엇인가?
RQ4비정상적이고 시간에 따라 변하는 MDP에서 추정량의 성능은 표준 IS 및 SMIS와 비교해 어떻게 되는가?
RQ5행동 공간이 유한할 경우 비.i.i.d. 및 비정상적 동역학 조건에서도 추정량은 점차적으로 효율성을 유지할 수 있는가?

주요 결과

제안된 TMIS 추정량은 점차적으로 $\Omega(H^2/n)$ 크레머-라오 하한을 달성하며, 평균 제곱오차가 $O(H^2/n)$로 나타나 이전의 MIS 방법에서 존재하던 $H$-요인 갭을 해소한다.
데이터 분할을 적용한 TMIS의 변형은 고확률 오차 한계 $\widetilde{O}(\sqrt{H^2SA/n})$를 달성하며, 로그 인자 외에는 이론적 하한과 정확히 일치한다.
실험에서 사용된 비정상적이고 시간에 따라 변하는 표본형 MDP에서, TMIS 추정량은 모든 정책에 대해 상대적 RMSE가 $\widetilde{O}(\sqrt{H^3 S^2 A / n})$로 나타났다.
경험적 결과는 TMIS가 표준 IS 및 SMIS보다 RMSE 측면에서 뛰어나며, 특히 수평선 $H$가 증가할수록 그 우월성이 두드러진다.
이론적 분석은 행동 공간이 유한할 경우 추정량이 점차적으로 효율적이며, 분산이 $H^2/n$로 최적 스케일링됨을 확인한다.
데이터 분할의 사용은 더 날카운 농도 한계를 가능하게 하며, 비.i.i.d. 및 비정상적 환경에서도 추정량이 일관성을 유지함을 보장한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.