Skip to main content
QUICK REVIEW

[论文解读] Doubly Robust Off-policy Value Evaluation for Reinforcement Learning

Nan Jiang, Lihong Li|arXiv (Cornell University)|Nov 11, 2015
Advanced Causal Inference Techniques参考文献 27被引用 81
一句话总结

本文提出了一种用于强化学习的双重稳健(DR)离策略价值评估估计器,通过结合回归与重要性采样,实现无偏估计且方差低于标准重要性采样。在某些场景下,该方法可达到Cramér-Rao下界,并在基准任务中显著优于现有方法,从而实现更可靠且更具进取性的安全策略改进。

ABSTRACT

We study the problem of off-policy value evaluation in reinforcement learning (RL), where one aims to estimate the value of a new policy based on data collected by a different policy. This problem is often a critical step when applying RL in real-world problems. Despite its importance, existing general methods either have uncontrolled bias or suffer high variance. In this work, we extend the doubly robust estimator for bandits to sequential decision-making problems, which gets the best of both worlds: it is guaranteed to be unbiased and can have a much lower variance than the popular importance sampling estimators. We demonstrate the estimator's accuracy in several benchmark problems, and illustrate its use as a subroutine in safe policy improvement. We also provide theoretical results on the hardness of the problem, and show that our estimator can match the lower bound in certain scenarios.

研究动机与目标

  • 为解决强化学习中的离策略价值评估问题,即数据由行为策略收集,但需估计目标策略的性能。
  • 克服现有方法的局限性:重要性采样方差过高,基于回归的方法存在无法量化的偏差。
  • 开发一种既无偏又具有低方差的估计器,实现离策略评估中无偏性与低方差的最优结合。
  • 展示该估计器在安全策略改进中的有效性,其中准确的价值估计对策略选择至关重要。
  • 建立理论保证,表明在特定条件下,DR估计器的方差可达到Cramér-Rao下界。

提出的方法

  • 提出一种双重稳健估计器,结合学习得到的Q函数(基于回归的估计)与重要性采样权重,从行为策略数据中估计目标策略的价值。
  • 将双重稳健估计器从上下文Bandit问题扩展至有限horizon MDP中的序列决策问题。
  • 采用重要性采样估计器与基于回归的估计器的加权组合,其中权重由Q函数估计的质量决定。
  • 使用控制变量技术降低方差,理论证明即使Q函数估计存在偏差,估计器仍保持无偏性。
  • 将该估计器作为子程序应用于安全策略迭代,利用置信区间确保策略选择的鲁棒性。
  • 理论分析表明,在特定场景下,DR估计器的方差可达到Cramér-Rao下界,表明其统计最优性。

实验结果

研究问题

  • RQ1能否成功将双重稳健估计器从上下文Bandit问题扩展至MDP中的序列决策问题?
  • RQ2所提出的DR估计器是否在保持无偏性的同时,方差低于重要性采样?
  • RQ3DR估计器是否在某些离策略评估场景中达到方差的统计下界?
  • RQ4与使用置信区间的IS相比,DR估计器在安全策略改进中的表现如何?
  • RQ5DR估计器对Q函数估计中的模型误设是否具有鲁棒性?

主要发现

  • 在所有基准环境(包括Mountain Car和Grid World)中,双重稳健估计器相比标准重要性采样显著降低了方差。
  • 当目标策略与行为策略相距较远时,DR优于重要性采样,后者因方差过高而表现不佳。
  • 当目标策略与行为策略接近时,DR的表现与基于回归的方法相当或更优,后者可能引入偏差。
  • 在特定设置下,DR估计器的方差匹配Cramér-Rao下界,表明其具有统计效率。
  • 在安全策略改进中,DR支持更激进的策略选择,同时保持安全性,优于使用置信区间的IS方法。
  • 实验结果表明,DR保持了无偏性,并在数据量增大时实现了高于IS的真实价值提升。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。