Skip to main content
QUICK REVIEW

[论文解读] Doubly Robust Bias Reduction in Infinite Horizon Off-Policy Estimation

Ziyang Tang, Yihao Feng|arXiv (Cornell University)|Apr 30, 2020
Reinforcement Learning in Robotics参考文献 31被引用 19
一句话总结

本文提出了一种用于无限时域离策略评估的双重稳健方法,通过结合学习到的值函数与平稳密度比估计来降低偏差。该方法在密度比或值函数任一被精确估计时,可确保偏差消失,显著提升了现有方法的准确性和方差控制能力。

ABSTRACT

Infinite horizon off-policy policy evaluation is a highly challenging task due to the excessively large variance of typical importance sampling (IS) estimators. Recently, Liu et al. (2018) proposed an approach that significantly reduces the variance of infinite-horizon off-policy evaluation by estimating the stationary density ratio, but at the cost of introducing potentially high risks due to the error in density ratio estimation. In this paper, we develop a bias-reduced augmentation of their method, which can take advantage of a learned value function to obtain higher accuracy. Our method is doubly robust in that the bias vanishes when either the density ratio or value function estimation is perfect. In general, when either of them is accurate, the bias can also be reduced. Both theoretical and empirical results show that our method yields significant advantages over previous methods.

研究动机与目标

  • 解决使用重要性采样进行无限时域离策略评估时存在的高方差和潜在偏差问题。
  • 降低对精确密度比估计的依赖,因为先前方法中该依赖可能引入显著误差。
  • 利用学习到的值函数以提高估计的准确性和鲁棒性。
  • 设计一种方法,当密度比或值函数估计正确时,仍能保持无偏性。
  • 通过理论稳健性与实证验证,实现优于现有方法的性能表现。

提出的方法

  • 通过将学习到的值函数整合到离策略估计器中,对Liu等人(2018)方法进行偏差减少的增强。
  • 构建一个结合重要性采样与值函数校正的估计器,以降低偏差。
  • 通过确保当密度比或值函数被精确估计时偏差消失,使估计器具备双重稳健性。
  • 采用两阶段估计程序:首先估计平稳密度比,然后使用离策略数据估计值函数。
  • 应用依赖于密度比和值函数的校正项,以稳定估计器并降低方差。
  • 理论分析表明,该方法在弱于先前方法的假设下仍能保持一致性。

实验结果

研究问题

  • RQ1能否设计一种方法,在不完全依赖精确密度比估计的前提下,降低无限时域离策略评估中的偏差?
  • RQ2将值函数估计与密度比估计相结合,如何影响离策略评估中的偏差与方差?
  • RQ3所提出的方法是否实现双重稳健性,即当密度比或值函数任一组件正确时,偏差消失?
  • RQ4该方法能否在估计准确性和方差降低方面优于现有方法?
  • RQ5当任一组件存在模型误设时,该方法的理论保证是什么?

主要发现

  • 与标准重要性采样及先前基于密度比的方法相比,所提方法实现了显著的方差降低。
  • 估计器具有双重稳健性:当密度比或值函数无误差估计时,偏差消失。
  • 实证结果表明,该方法在密度比估计不完善时,相比Liu等人(2018)的方法表现出更高的准确性。
  • 即使在密度比与值函数估计均存在中等程度误差时,该方法仍能保持低偏差。
  • 理论分析确认,该估计器在弱于先前方法的假设下仍保持一致性。
  • 该方法在多个环境中均表现出稳健性能,验证了其在离策略评估中的实际应用价值。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。