Skip to main content
QUICK REVIEW

[论文解读] Empirical Study of Off-Policy Policy Evaluation for Reinforcement Learning

Cameron Voloshin, Hoang Le|arXiv (Cornell University)|Nov 15, 2019
Reinforcement Learning in Robotics参考文献 60被引用 68
一句话总结

本文介绍 Caltech OPE 基准套件(COBS)以及对离线策略评估方法在多样环境和因素下的广泛实证研究。

ABSTRACT

We offer an experimental benchmark and empirical study for off-policy policy evaluation (OPE) in reinforcement learning, which is a key problem in many safety critical applications. Given the increasing interest in deploying learning-based methods, there has been a flurry of recent proposals for OPE method, leading to a need for standardized empirical analyses. Our work takes a strong focus on diversity of experimental design to enable stress testing of OPE methods. We provide a comprehensive benchmarking suite to study the interplay of different attributes on method performance. We distill the results into a summarized set of guidelines for OPE in practice. Our software package, the Caltech OPE Benchmarking Suite (COBS), is open-sourced and we invite interested researchers to further contribute to the benchmark.

研究动机与目标

  • 引入一个标准化的 OPE 基准方法,强调影响性能的因素。
  • 提供多样化的实验域,以实现对 OPE 方法的鲁棒压力测试。
  • 系统性评估具有代表性的 OPE 基线,推导出实用的方法选择指南。

提出的方法

  • 开发 Caltech OPE 基准套件(COBS),以控制数据生成和域因素,从而对 OPE 方法进行压力测试。
  • 将 OPE 方法分为逆概率加权法(Inverse Propensity Scoring, IPS)、直接法(Direct Methods, DM)和混合法(Hybrid Methods, HM),并评估各类别的具有代表性的基线。
  • 设计八个具有可控时间步长、稀疏性、随机性、表示性以及策略错配的环境,以在不同条件下研究性能。
  • 使用两种策略类别(状态无关且具有固定行动概率、以及来自 Q* 的 epsilon-greedy),并通过相对均方误差(relative MSE)和在多个种子下的靠近顶部的频率来衡量性能。
  • 在数千次实验中基准评估,以评估方法的鲁棒性并推导实际的选择指南。

实验结果

研究问题

  • RQ1在不同环境中,不同 OPE 方法(IPS、DM、HM)在何种条件下表现最佳?
  • RQ2如时域长度、奖励稀疏性、随机性、策略错配和表示性等因素如何影响 OPE 的精度?
  • RQ3是否存在单一的最优 OPE 方法,还是性能取决于领域和实验条件?
  • RQ4模型指定错误和未知行为策略如何影响不同方法的 OPE 性能?
  • RQ5可以归纳出哪些指南,帮助从业者在实践中选择 OPE 方法?

主要发现

  • 没有单一方法在所有条件下都占优;性能高度依赖于上下文。
  • 在 IPS 基于估计量中,PDWIS 在测试情景中往往表现最佳。
  • 在直接法中,FQE、Q^π(λ) 和 IH 常表现出色,FQE 在数据匮乏时表现出色,Q^π(λ) 随着数据增多而提升。
  • 混合方法(DR/WDR/MAGIC)通常优于其基础 DM,MAGIC 常提供最优性能,尽管调优依赖于数据与领域。
  • 模型设定错误和高策略错配在某些情况下有利于 HM,但在许多高维或长时域情形下,DM 也具可比性甚至更优。
  • 时域长度很重要,但评估策略与行为策略之间的差异可能对精度产生更大影响。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。