QUICK REVIEW

[论文解读] Empirical Study of Off-Policy Policy Evaluation for Reinforcement Learning

Cameron Voloshin, Hoang Le|arXiv (Cornell University)|Nov 15, 2019

Reinforcement Learning in Robotics参考文献 60被引用 68

一句话总结

本文介绍 Caltech OPE 基准套件（COBS）以及对离线策略评估方法在多样环境和因素下的广泛实证研究。

ABSTRACT

We offer an experimental benchmark and empirical study for off-policy policy evaluation (OPE) in reinforcement learning, which is a key problem in many safety critical applications. Given the increasing interest in deploying learning-based methods, there has been a flurry of recent proposals for OPE method, leading to a need for standardized empirical analyses. Our work takes a strong focus on diversity of experimental design to enable stress testing of OPE methods. We provide a comprehensive benchmarking suite to study the interplay of different attributes on method performance. We distill the results into a summarized set of guidelines for OPE in practice. Our software package, the Caltech OPE Benchmarking Suite (COBS), is open-sourced and we invite interested researchers to further contribute to the benchmark.

研究动机与目标

引入一个标准化的 OPE 基准方法，强调影响性能的因素。
提供多样化的实验域，以实现对 OPE 方法的鲁棒压力测试。
系统性评估具有代表性的 OPE 基线，推导出实用的方法选择指南。

提出的方法

开发 Caltech OPE 基准套件（COBS），以控制数据生成和域因素，从而对 OPE 方法进行压力测试。
将 OPE 方法分为逆概率加权法（Inverse Propensity Scoring, IPS）、直接法（Direct Methods, DM）和混合法（Hybrid Methods, HM），并评估各类别的具有代表性的基线。
设计八个具有可控时间步长、稀疏性、随机性、表示性以及策略错配的环境，以在不同条件下研究性能。
使用两种策略类别（状态无关且具有固定行动概率、以及来自 Q* 的 epsilon-greedy），并通过相对均方误差（relative MSE）和在多个种子下的靠近顶部的频率来衡量性能。
在数千次实验中基准评估，以评估方法的鲁棒性并推导实际的选择指南。

实验结果

研究问题

RQ1在不同环境中，不同 OPE 方法（IPS、DM、HM）在何种条件下表现最佳？
RQ2如时域长度、奖励稀疏性、随机性、策略错配和表示性等因素如何影响 OPE 的精度？
RQ3是否存在单一的最优 OPE 方法，还是性能取决于领域和实验条件？
RQ4模型指定错误和未知行为策略如何影响不同方法的 OPE 性能？
RQ5可以归纳出哪些指南，帮助从业者在实践中选择 OPE 方法？

主要发现

没有单一方法在所有条件下都占优；性能高度依赖于上下文。
在 IPS 基于估计量中，PDWIS 在测试情景中往往表现最佳。
在直接法中，FQE、Q^π(λ) 和 IH 常表现出色，FQE 在数据匮乏时表现出色，Q^π(λ) 随着数据增多而提升。
混合方法（DR/WDR/MAGIC）通常优于其基础 DM，MAGIC 常提供最优性能，尽管调优依赖于数据与领域。
模型设定错误和高策略错配在某些情况下有利于 HM，但在许多高维或长时域情形下，DM 也具可比性甚至更优。
时域长度很重要，但评估策略与行为策略之间的差异可能对精度产生更大影响。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。