QUICK REVIEW

[논문 리뷰] Towards Optimal Off-Policy Evaluation for Reinforcement Learning with Marginalized Importance Sampling

Tengyang Xie, Yifei Ma|arXiv (Cornell University)|2019. 01. 01.

Advanced Causal Inference Techniques인용 수 53

한 줄 요약

이 논문은 장기적인 환경과 큰 행동 공간을 가진 비정적 순환 MDP에서 오프-폴리시 평가를 위한 마진화된 중요도 샘플링(MIS) 추정기의 제안한다. 상태의 마진 분포를 순환적으로 추정함으로써, MIS는 환경의 길이 H에 대해 다항수준의 의존성으로 평균 제곱 오차 경계를 확보하며, Cramer-Rao 하한에 H 요소를 제외한 수준에서 일치한다. 이는 도전적인 강화학습 환경에서 뛰어난 경험적 성능을 보여준다.

ABSTRACT

Motivated by the many real-world applications of reinforcement learning (RL) that require safe-policy iterations, we consider the problem of off-policy evaluation (OPE) --- the problem of evaluating a new policy using the historical data obtained by different behavior policies --- under the model of nonstationary episodic Markov Decision Processes (MDP) with a long horizon and a large action space. Existing importance sampling (IS) methods often suffer from large variance that depends exponentially on the RL horizon $H$. To solve this problem, we consider a marginalized importance sampling (MIS) estimator that recursively estimates the state marginal distribution for the target policy at every step. MIS achieves a mean-squared error of $$ \frac{1}{n} \sum_{t=1}^H\mathbb{E}_{\mu}\left[\frac{d_t^\pi(s_t)^2}{d_t^\mu(s_t)^2} \Var_{\mu}\left[\frac{\pi_t(a_t|s_t)}{\mu_t(a_t|s_t)}\big( V_{t+1}^\pi(s_{t+1}) + r_t\big) \middle| s_t ight] ight] + ilde{O}(n^{-1.5}) $$ where $\mu$ and $\pi$ are the logging and target policies, $d_t^{\mu}(s_t)$ and $d_t^{\pi}(s_t)$ are the marginal distribution of the state at $t$th step, $H$ is the horizon, $n$ is the sample size and $V_{t+1}^\pi$ is the value function of the MDP under $\pi$. The result matches the Cramer-Rao lower bound in [Jiang and Li, 2016] up to a multiplicative factor of $H$. To the best of our knowledge, this is the first OPE estimation error bound with a polynomial dependence on $H$. Besides theory, we show empirical superiority of our method in time-varying, partially observable, and long-horizon RL environments.

연구 동기 및 목표

장기적인 환경과 큰 행동 공간을 가진 MDP에서 오프-폴리시 평가(OPE)의 높은 분산 문제를 해결하기 위해.
伝통적인 중요도 샘플링(IS) 방법에서 관찰되는 환경 길이 H에 대한 지수적 의존성을 줄이기 위해.
H에 대해 다항수준으로 확장되는 이론적으로 탄탄한 오차 경계를 가진 OPE 추정기를 개발하기 위해.
비정적 및 부분 관측 가능한 환경에서 기존의 IS 기반 OPE 방법보다 이론적 및 경험적으로 향상된 성능을 달성하기 위해.

제안 방법

이 방법은 각 시간 단계에서 타겟 정책 하의 상태 마진 분포를 순환적으로 추정하는 마진화된 중요도 샘플링(MIS) 추정기를 도입한다.
중요도 샘플링 기여도를 재가중하기 위해 상태 마진 확률의 비율 $ \frac{d_t^\pi(s_t)^2}{d_t^\mu(s_t)^2} $ 를 활용한다.
중요도 가중치 계산 내부에서 가치 함수 $ V_{t+1}^\pi(s_{t+1}) $ 와 즉각적인 보상 $ r_t $ 를 통합한다.
가치 함수의 순환 분해를 통해 추정을 안정화하고 분산을 감소시킨다.
이론적 분석을 통해 평균 제곱 오차를 $ \frac{1}{n} \sum_{t=1}^H \mathbb{E}_\mu\left[ \frac{d_t^\pi(s_t)^2}{d_t^\mu(s_t)^2} \Var_\mu\left[ \frac{\pi_t(a_t|s_t)}{\mu_t(a_t|s_t)} (V_{t+1}^\pi(s_{t+1}) + r_t) \mid s_t \right] \right] + \tilde{O}(n^{-1.5}) $ 로 경계한다.
이 방법은 시간에 따라 변화하는, 부분 관측 가능한, 그리고 장기적인 강화학습 설정에 적용 가능하도록 설계되어 있다.

실험 결과

연구 질문

RQ1표준 IS에서 관찰되는 H에 대한 지수적 의존성 초과하여 장기적인 환경에서 오프-폴리시 평가의 분산을 줄일 수 있는가?
RQ2마진화된 중요도 샘플링(MIS)이 환경 길이 H에 대해 다항수준의 이론적 오차 경계를 제공하는가?
RQ3부분 관측 가능하고 시간에 따라 변화하는 RL 환경에서 MIS는 기존의 OPE 방법과 비교해 어떻게 성능을 냅니까?
RQ4비정적 순환 MDP에서 MIS는 오프-폴리시 평가의 Cramer-Rao 하한에 얼마나 가까이 도달하는가?
RQ5큰 행동 공간과 장기적인 환경 설정에서 MIS는 낮은 분산과 높은 정확도를 유지할 수 있는가?

주요 결과

MIS 추정기는 환경 길이 H에 대해 다항수준의 의존성을 가지는 평균 제곱 오차 경계를 확보하며, 기존의 표준 IS에서 관찰되는 지수적 의존성에 비해 뚜렷한 향상이다.
이론적 오차 경계는 [Jiang와 Li, 2016]에서 제시한 Cramer-Rao 하한에 H 요소를 제외한 수준에서 일치한다.
이 방법은 비정적 순환 MDP에서 H에 대해 다항수준의 의존성을 가지는 경계를 확보한 최초의 OPE 추정기이다.
경험적 결과는 MIS가 시간에 따라 변화하는, 부분 관측 가능한, 그리고 장기적인 환경에서 기존 방법들을 능가함을 보여준다.
주요 오차 항 외에도 $ \tilde{O}(n^{-1.5}) $ 스타일의 수렴 속도를 확보함으로써 강력한 유한 표본 성능을 나타낸다.
장기적인 환경 설정에서 시간 단계 간 분산 전파를 효과적으로 줄이기 위해 상태 마진 분포의 순환 추정이 유용하게 기여한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.