[论文解读] Asymptotically Efficient Off-Policy Evaluation for Tabular Reinforcement Learning
本文提出了一种用于表格型强化学习中离策略评估的修正边际重要性采样(TMIS)估计器,该估计器渐近地达到了均方误差的Cramér-Rao下界,通过消除$H$-因子差距,改进了先前的MIS方法。该方法采用数据分割和偏差校正估计器,确保方差随时间跨度$H$最优缩放,从而在有限动作空间下实现$O(H^2/n)$的均方误差。
We consider the problem of off-policy evaluation for reinforcement learning, where the goal is to estimate the expected reward of a target policy $\\pi$ using offline data collected by running a logging policy $\\mu$. Standard importance-sampling based approaches for this problem suffer from a variance that scales exponentially with time horizon $H$, which motivates a splurge of recent interest in alternatives that break the "Curse of Horizon" (Liu et al. 2018, Xie et al. 2019). In particular, it was shown that a marginalized importance sampling (MIS) approach can be used to achieve an estimation error of order $O(H^3/ n)$ in mean square error (MSE) under an episodic Markov Decision Process model with finite states and potentially infinite actions. The MSE bound however is still a factor of $H$ away from a Cramer-Rao lower bound of order $\\Omega(H^2/n)$. In this paper, we prove that with a simple modification to the MIS estimator, we can asymptotically attain the Cramer-Rao lower bound, provided that the action space is finite. We also provide a general method for constructing MIS estimators with high-probability error bounds.
研究动机与目标
- 解决标准重要性采样在离策略评估中高方差的问题,特别是其随时间跨度$H$呈指数级增长的缺陷。
- 通过改进方差缩放,弥合现有边际IS估计器与Cramér-Rao下界之间的差距,后者为$\Omega(H^2/n)$。
- 开发一种理论基础坚实的估计器,使其在有限动作空间下实现渐近效率。
- 利用数据分割和集中不等式,为估计器提供高概率误差界。
- 通过在非平稳、时变的表格型MDP上进行实证验证,展示该方法的优越性。
提出的方法
- 提出一种修正的边际IS估计器(TMIS),通过引入具有可控方差的虚构估计器,校正原始MIS估计器中的偏差。
- 使用数据分割,将数据集划分为$N$个独立的折子集,每一份用于单独计算一个TMIS估计值。
- 通过平均$N$个估计值来降低方差,同时保持无偏性。
- 应用集中不等式和并集界,推导最终估计器的高概率误差界。
- 引入一种虚构的表格型MIS估计器,用于分析方差与偏差,从而实现对估计器性能的理论控制。
- 利用具有有限状态和动作空间的回合型MDP的结构,推导出最优的$O(H^2/n)$均方误差缩放。
实验结果
研究问题
- RQ1修正的边际IS估计器能否在表格型MDP中实现离策略评估的Cramér-Rao下界?
- RQ2所提出的基于数据分割的方法是否能降低估计器的方差,并消除先前MIS方法中存在的$H$-因子差距?
- RQ3在有限动作空间下,所提估计器的高概率误差界是什么?
- RQ4在非平稳、时变的MDP中,该估计器的性能与标准IS和SMIS相比如何?
- RQ5当动作空间有限时,即使在非i.i.d.和非平稳动态条件下,该估计器是否仍能保持渐近效率?
主要发现
- 所提出的TMIS估计器渐近地达到了$\Omega(H^2/n)$的Cramér-Rao下界,其均方误差为$O(H^2/n)$,消除了先前MIS方法中存在的$H$-因子差距。
- TMIS的数据分割变体实现了高概率误差界$\widetilde{O}(\sqrt{H^2SA/n})$,在对数因子范围内与理论下界一致。
- 在实验中使用的非平稳、时变的表格型MDP中,TMIS估计器在所有策略下均实现了相对RMSE为$\widetilde{O}(\sqrt{H^3 S^2 A / n})$的性能。
- 实证结果表明,TMIS在RMSE方面优于标准IS和SMIS,且随着时间跨度$H$的增加,优势更加显著。
- 理论分析证实,该估计器在有限动作空间下具有渐近效率,其方差最优地随$H^2/n$缩放。
- 数据分割的使用使得集中界更紧,并确保估计器在非i.i.d.和非平稳环境中仍保持一致性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。