[논문 리뷰] Towards Optimal Off-Policy Evaluation for Reinforcement Learning with Marginalized Importance Sampling
이 논문은 장기적인 환경과 큰 행동 공간을 가진 비정적 순환 MDP에서 오프-폴리시 평가를 위한 마진화된 중요도 샘플링(MIS) 추정기의 제안한다. 상태의 마진 분포를 순환적으로 추정함으로써, MIS는 환경의 길이 H에 대해 다항수준의 의존성으로 평균 제곱 오차 경계를 확보하며, Cramer-Rao 하한에 H 요소를 제외한 수준에서 일치한다. 이는 도전적인 강화학습 환경에서 뛰어난 경험적 성능을 보여준다.
Motivated by the many real-world applications of reinforcement learning (RL) that require safe-policy iterations, we consider the problem of off-policy evaluation (OPE) --- the problem of evaluating a new policy using the historical data obtained by different behavior policies --- under the model of nonstationary episodic Markov Decision Processes (MDP) with a long horizon and a large action space. Existing importance sampling (IS) methods often suffer from large variance that depends exponentially on the RL horizon $H$. To solve this problem, we consider a marginalized importance sampling (MIS) estimator that recursively estimates the state marginal distribution for the target policy at every step. MIS achieves a mean-squared error of $$ \frac{1}{n} \sum_{t=1}^H\mathbb{E}_{\mu}\left[\frac{d_t^\pi(s_t)^2}{d_t^\mu(s_t)^2} \Var_{\mu}\left[\frac{\pi_t(a_t|s_t)}{\mu_t(a_t|s_t)}\big( V_{t+1}^\pi(s_{t+1}) + r_t\big) \middle| s_t ight] ight] + ilde{O}(n^{-1.5}) $$ where $\mu$ and $\pi$ are the logging and target policies, $d_t^{\mu}(s_t)$ and $d_t^{\pi}(s_t)$ are the marginal distribution of the state at $t$th step, $H$ is the horizon, $n$ is the sample size and $V_{t+1}^\pi$ is the value function of the MDP under $\pi$. The result matches the Cramer-Rao lower bound in [Jiang and Li, 2016] up to a multiplicative factor of $H$. To the best of our knowledge, this is the first OPE estimation error bound with a polynomial dependence on $H$. Besides theory, we show empirical superiority of our method in time-varying, partially observable, and long-horizon RL environments.
연구 동기 및 목표
- 장기적인 환경과 큰 행동 공간을 가진 MDP에서 오프-폴리시 평가(OPE)의 높은 분산 문제를 해결하기 위해.
- 伝통적인 중요도 샘플링(IS) 방법에서 관찰되는 환경 길이 H에 대한 지수적 의존성을 줄이기 위해.
- H에 대해 다항수준으로 확장되는 이론적으로 탄탄한 오차 경계를 가진 OPE 추정기를 개발하기 위해.
- 비정적 및 부분 관측 가능한 환경에서 기존의 IS 기반 OPE 방법보다 이론적 및 경험적으로 향상된 성능을 달성하기 위해.
제안 방법
- 이 방법은 각 시간 단계에서 타겟 정책 하의 상태 마진 분포를 순환적으로 추정하는 마진화된 중요도 샘플링(MIS) 추정기를 도입한다.
- 중요도 샘플링 기여도를 재가중하기 위해 상태 마진 확률의 비율 $ \frac{d_t^\pi(s_t)^2}{d_t^\mu(s_t)^2} $ 를 활용한다.
- 중요도 가중치 계산 내부에서 가치 함수 $ V_{t+1}^\pi(s_{t+1}) $ 와 즉각적인 보상 $ r_t $ 를 통합한다.
- 가치 함수의 순환 분해를 통해 추정을 안정화하고 분산을 감소시킨다.
- 이론적 분석을 통해 평균 제곱 오차를 $ \frac{1}{n} \sum_{t=1}^H \mathbb{E}_\mu\left[ \frac{d_t^\pi(s_t)^2}{d_t^\mu(s_t)^2} \Var_\mu\left[ \frac{\pi_t(a_t|s_t)}{\mu_t(a_t|s_t)} (V_{t+1}^\pi(s_{t+1}) + r_t) \mid s_t \right] \right] + \tilde{O}(n^{-1.5}) $ 로 경계한다.
- 이 방법은 시간에 따라 변화하는, 부분 관측 가능한, 그리고 장기적인 강화학습 설정에 적용 가능하도록 설계되어 있다.
실험 결과
연구 질문
- RQ1표준 IS에서 관찰되는 H에 대한 지수적 의존성 초과하여 장기적인 환경에서 오프-폴리시 평가의 분산을 줄일 수 있는가?
- RQ2마진화된 중요도 샘플링(MIS)이 환경 길이 H에 대해 다항수준의 이론적 오차 경계를 제공하는가?
- RQ3부분 관측 가능하고 시간에 따라 변화하는 RL 환경에서 MIS는 기존의 OPE 방법과 비교해 어떻게 성능을 냅니까?
- RQ4비정적 순환 MDP에서 MIS는 오프-폴리시 평가의 Cramer-Rao 하한에 얼마나 가까이 도달하는가?
- RQ5큰 행동 공간과 장기적인 환경 설정에서 MIS는 낮은 분산과 높은 정확도를 유지할 수 있는가?
주요 결과
- MIS 추정기는 환경 길이 H에 대해 다항수준의 의존성을 가지는 평균 제곱 오차 경계를 확보하며, 기존의 표준 IS에서 관찰되는 지수적 의존성에 비해 뚜렷한 향상이다.
- 이론적 오차 경계는 [Jiang와 Li, 2016]에서 제시한 Cramer-Rao 하한에 H 요소를 제외한 수준에서 일치한다.
- 이 방법은 비정적 순환 MDP에서 H에 대해 다항수준의 의존성을 가지는 경계를 확보한 최초의 OPE 추정기이다.
- 경험적 결과는 MIS가 시간에 따라 변화하는, 부분 관측 가능한, 그리고 장기적인 환경에서 기존 방법들을 능가함을 보여준다.
- 주요 오차 항 외에도 $ \tilde{O}(n^{-1.5}) $ 스타일의 수렴 속도를 확보함으로써 강력한 유한 표본 성능을 나타낸다.
- 장기적인 환경 설정에서 시간 단계 간 분산 전파를 효과적으로 줄이기 위해 상태 마진 분포의 순환 추정이 유용하게 기여한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.