Skip to main content
QUICK REVIEW

[论文解读] Using Options and Covariance Testing for Long Horizon Off-Policy Policy Evaluation

Zhaohan Daniel Guo, Philip S. Thomas|arXiv (Cornell University)|Mar 9, 2017
Economic and Environmental Valuation被引用 25
一句话总结

本文提出在离策略策略评估中使用选项——时序扩展动作——以降低长时序决策任务中重要性采样估计器的方差。通过以选项构建策略,该方法实现了指数级方差减少,并引入了一种协方差检验规则,实现动态权重剪枝,从而提出一种新算法——增量重要性采样(INCRIS),显著提升了估计精度,且均方误差低于现有方法。

ABSTRACT

Evaluating a policy by deploying it in the real world can be risky and costly. Off-policy policy evaluation (OPE) algorithms use historical data collected from running a previous policy to evaluate a new policy, which provides a means for evaluating a policy without requiring it to ever be deployed. Importance sampling is a popular OPE method because it is robust to partial observability and works with continuous states and actions. However, the amount of historical data required by importance sampling can scale exponentially with the horizon of the problem: the number of sequential decisions that are made. We propose using policies over temporally extended actions, called options, and show that combining these policies with importance sampling can significantly improve performance for long-horizon problems. In addition, we can take advantage of special cases that arise due to options-based policies to further improve the performance of importance sampling. We further generalize these special cases to a general covariance testing rule that can be used to decide which weights to drop in an IS estimate, and derive a new IS algorithm called Incremental Importance Sampling that can provide significantly more accurate estimates for a broad class of domains.

研究动机与目标

  • 为解决长时序离策略策略评估中重要性采样方差过高的问题,该问题限制了其在现实世界应用中的实用性。
  • 通过选项实现时间抽象,以缩短有效时域,提升估计稳定性。
  • 识别基于选项的策略中可实现进一步方差减少的特殊结构情形,通过权重丢弃实现。
  • 将这些特殊情形推广为一种系统性的协方差检验规则,用于在重要性采样中自动选择权重。
  • 设计并评估一种新算法——增量重要性采样(INCRIS),应用该规则以提升估计精度。

提出的方法

  • 使用具有离散状态、动作和奖励的马尔可夫决策过程(MDP)建模决策过程,并在原始动作或选项上定义策略。
  • 将选项表示为原始策略、终止条件和输入状态集的组合,以支持时序扩展动作。
  • 应用重要性采样,利用行为策略收集的数据估计评估策略的性能,同时对处理选项的部分进行修改。
  • 推导一种协方差检验规则,以识别并丢弃对估计器方差贡献较小的重要权重。
  • 设计增量重要性采样(INCRIS)算法,动态应用协方差检验以选择权重,提升估计器精度。
  • 在具有依赖子任务的修改版MDP上对INCRIS进行实证评估,以模拟糖尿病管理与数字营销等现实世界领域。

实验结果

研究问题

  • RQ1在离策略策略评估中使用选项,是否能降低长时序任务中重要性采样估计器的方差?
  • RQ2选项的结构性质——如固定状态下的终止——是否能自然地降低重要性采样中的方差?
  • RQ3能否推导出一种通用的协方差检验规则,以自动识别并丢弃无信息的重要权重?
  • RQ4所提出的增量重要性采样(INCRIS)算法是否显著降低了均方误差,相较于标准重要性采样方法?
  • RQ5随着数据量增加,INCRIS能否通过选择更长的动作序列,自适应地平衡偏差与方差?

主要发现

  • 基于选项的策略可实现重要性采样估计器方差的指数级减少,在某些情况下使方差与时域长度无关。
  • 选项中的特殊结构情形——如在固定状态分布下终止——可通过丢弃重要性采样权重,实现显著的方差减少。
  • 所提出的协方差检验规则成功识别并移除低影响权重,降低估计器方差,且不引入偏差。
  • INCRIS算法的均方误差比普通重要性采样低一个数量级,且在某些数据环境下,相较于无权重估计器,提升达两个数量级。
  • 在具有依赖子任务的模拟MDP中,INCRIS在多种数据规模下均优于其他最先进估计器,包括PDIS、WIS和CWPDIS。
  • 该方法在任务非独立的领域中表现有效,如糖尿病治疗与数字营销,这些领域的历史依赖关系违反了标准IS的独立同分布假设。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。