[论文解读] Towards Optimal Off-Policy Evaluation for Reinforcement Learning with Marginalized Importance Sampling
本文提出了一种在长时域、大动作空间的非平稳回合制MDP中进行离策略评估的边际重要性采样(MIS)估计器。通过递归估计状态边际分布,MIS实现了与时域H呈多项式依赖关系的均方误差界,其与Cramer-Rao下界相比仅相差一个H因子,且在具有挑战性的强化学习环境中展现出优越的实证性能。
Motivated by the many real-world applications of reinforcement learning (RL) that require safe-policy iterations, we consider the problem of off-policy evaluation (OPE) --- the problem of evaluating a new policy using the historical data obtained by different behavior policies --- under the model of nonstationary episodic Markov Decision Processes (MDP) with a long horizon and a large action space. Existing importance sampling (IS) methods often suffer from large variance that depends exponentially on the RL horizon $H$. To solve this problem, we consider a marginalized importance sampling (MIS) estimator that recursively estimates the state marginal distribution for the target policy at every step. MIS achieves a mean-squared error of $$ \frac{1}{n} \sum_{t=1}^H\mathbb{E}_{\mu}\left[\frac{d_t^\pi(s_t)^2}{d_t^\mu(s_t)^2} \Var_{\mu}\left[\frac{\pi_t(a_t|s_t)}{\mu_t(a_t|s_t)}\big( V_{t+1}^\pi(s_{t+1}) + r_t\big) \middle| s_t ight] ight] + ilde{O}(n^{-1.5}) $$ where $\mu$ and $\pi$ are the logging and target policies, $d_t^{\mu}(s_t)$ and $d_t^{\pi}(s_t)$ are the marginal distribution of the state at $t$th step, $H$ is the horizon, $n$ is the sample size and $V_{t+1}^\pi$ is the value function of the MDP under $\pi$. The result matches the Cramer-Rao lower bound in [Jiang and Li, 2016] up to a multiplicative factor of $H$. To the best of our knowledge, this is the first OPE estimation error bound with a polynomial dependence on $H$. Besides theory, we show empirical superiority of our method in time-varying, partially observable, and long-horizon RL environments.
研究动机与目标
- 解决在长时域、大动作空间MDP中离策略评估(OPE)的高方差问题。
- 降低传统重要性采样(IS)方法中对时域H的指数依赖性。
- 开发一种具有理论支撑的误差界、且随H呈多项式增长的OPE估计器。
- 在非平稳和部分可观察环境中,实现对现有基于IS的OPE方法在理论和实证上的改进。
提出的方法
- 该方法提出了一种边际重要性采样(MIS)估计器,通过在每个时间步递归估计目标策略下的状态边际分布。
- 利用状态边际概率之比 $ \frac{d_t^\pi(s_t)^2}{d_t^\mu(s_t)^2} $ 来重新加权重要性采样贡献。
- 在重要性权重计算中整合了价值函数 $ V_{t+1}^\pi(s_{t+1}) $ 和即时奖励 $ r_t $。
- 通过递归分解价值函数来稳定估计并降低方差。
- 理论分析表明,均方误差被界定为 $ \frac{1}{n} \sum_{t=1}^H \mathbb{E}_\mu\left[ \frac{d_t^\pi(s_t)^2}{d_t^\mu(s_t)^2} \Var_\mu\left[ \frac{\pi_t(a_t|s_t)}{\mu_t(a_t|s_t)} (V_{t+1}^\pi(s_{t+1}) + r_t) \mid s_t \right] \right] + \tilde{O}(n^{-1.5}) $。
- 该方法被设计用于适用于时变、部分可观察以及长时域强化学习场景。
实验结果
研究问题
- RQ1我们能否在标准IS方法中对时域H的指数依赖之外,进一步降低长时域MDP中离策略评估的方差?
- RQ2边际重要性采样是否能获得随时域H呈多项式增长的理论误差界?
- RQ3在部分可观察和时变强化学习环境中,MIS与现有OPE方法相比在实证上表现如何?
- RQ4MIS在非平稳回合制MDP中在多大程度上逼近了离策略评估的Cramer-Rao下界?
- RQ5在大动作空间和长时域设置下,MIS能否保持低方差和高精度?
主要发现
- MIS估计器实现了与时域H呈多项式依赖关系的均方误差界,相较于标准IS方法的指数依赖关系有显著改进。
- 理论误差界与[Jiang和Li, 2016]中给出的Cramer-Rao下界相比,仅相差一个H因子。
- 该方法是首个在非平稳回合制MDP中实现此类多项式H依赖误差界的OPE估计器。
- 实证结果表明,MIS在时变、部分可观察和长时域强化学习环境中优于现有方法。
- 该估计器在主误差项之外还实现了 $ \tilde{O}(n^{-1.5}) $ 样式的收敛速率,表明其在有限样本下表现强劲。
- 对状态边际分布的递归估计有效减少了长时域设置下时间步之间的方差传播。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。