[论文解读] Breaking the Curse of Horizon: Infinite-Horizon Off-Policy Estimation
本文提出一种基于稳态密度比的离线策略评估器,应用重要性采样于状态访问分布,相较于轨迹基IS方法,在无限-horizon 设置中方差更小。它提供一个带RKHS封闭解的极大/极小密度比估计框架,并支持在长时程任务上的经验验证。
We consider the off-policy estimation problem of estimating the expected reward of a target policy using samples collected by a different behavior policy. Importance sampling (IS) has been a key technique to derive (nearly) unbiased estimators, but is known to suffer from an excessively high variance in long-horizon problems. In the extreme case of in infinite-horizon problems, the variance of an IS-based estimator may even be unbounded. In this paper, we propose a new off-policy estimation method that applies IS directly on the stationary state-visitation distributions to avoid the exploding variance issue faced by existing estimators.Our key contribution is a novel approach to estimating the density ratio of two stationary distributions, with trajectories sampled from only the behavior distribution. We develop a mini-max loss function for the estimation problem, and derive a closed-form solution for the case of RKHS. We support our method with both theoretical and empirical analyses.
研究动机与目标
- 动机并解决在长时和无限时序MDP中的离策略估计高方差问题( horizon 诅咒)。
- 提出一种对稳态状态访问分布而非整个轨迹应用重要性采样的估计器。
- 开发一个极大/极小密度比估计框架,用以计算目标策略与行为策略之间的稳态比,具有 RKHS 的封闭形式结果。
- 从理论上分析所提出的损失及其与Bellman方程的关系;在长时任务上实证证明其有效性。
提出的方法
- 通过稳态访问分布之间的密度比 w_pi/pi0(s)=d_pi(s)/d_pi0(s) 来形式化离策略评估。
- Derive an importance-sampling estimator R_pi = E_{(s,a)~d_pi0}[ w_pi/pi0(s) beta_pi/pi0(a|s) r(s,a) ].
- 提出一个极大/极小目标,通过在函数类 F 上最大化基于判别器的损失 L(w,f) 来学习 w_pi/pi0,并通过归一化防止退化解。
- 给出当 F 是 RKHS 的单位球时,对判别器取极大值的闭式表示,从而实现实际估计。
- 扩展到折扣奖励(gamma<1)与平均奖励(gamma=1)的情况,给出相应的方程和归一化。
- 提出理论分析将 L(w,f) 与 Bellman 运算符联系起来,并建立界限,表明良好的 F 如何使 w_pi/pi0 和 R_pi 的估计误差有界。
- 通过实证证明,基于稳态密度比的方法在长期任务中相较于基于轨迹的IS/WIS具有更低方差和更好性能。
实验结果
研究问题
- RQ1是否可以通过对稳态状态访问分布加权而不是对整条轨迹加权,使无限时域MDP的离策略评估对方差具有鲁棒性?
- RQ2如何仅使用行为策略的离策略数据,一致地估计稳态密度比 w_pi/pi0(s)?
- RQ3带有 RKHS 的极大/极小密度比估计框架是否能产生闭式解并为离策略评估提供理论保证?
- RQ4在离散和连续状态空间中,与传统的 IS/WIS 方法相比,该方法在长时域情景中的表现如何?
主要发现
- 基于稳态状态密度的重要性采样估计器降低了方差并消除了时域依赖。
- 推导出一个极大/极小密度比估计器,且对 max-discriminator 目标在 RKHS 下有闭式解。
- 密度比估计器提供了与 Bellman 运算符的有意义的界限联系,使对估计奖励的误差具备控制。
- 在 Taxi、Pendulum、SUMO 环境上的实证结果显示相较于轨迹基 IS/WIS 性能提升,特别是在时域长度增加或折扣因子接近1时。
- 通过用神经网络参数化 w 并使用基于 RKHS 的判别器,该方法在连续状态空间中仍然有效。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。