QUICK REVIEW

[论文解读] Benchmarks for Deep Off-Policy Evaluation

Justin Fu, Mohammad Norouzi|arXiv (Cornell University)|Mar 30, 2021

Reinforcement Learning in Robotics参考文献 54被引用 24

一句话总结

本文提出了深度离策略评估（DOPE）基准，这是一个使用高维连续控制任务对离策略强化学习方法进行标准化评估的框架。该基准提供了多样化的离线数据集、每个任务下多种策略，以及在理想与对抗性设置下的严格评估协议，支持对OPE算法在策略价值估计、排序与选择方面的可靠比较，并报告了最先进的基线结果以确保可复现性。

ABSTRACT

Off-policy evaluation (OPE) holds the promise of being able to leverage large, offline datasets for both evaluating and selecting complex policies for decision making. The ability to learn offline is particularly important in many real-world domains, such as in healthcare, recommender systems, or robotics, where online data collection is an expensive and potentially dangerous process. Being able to accurately evaluate and select high-performing policies without requiring online interaction could yield significant benefits in safety, time, and cost for these applications. While many OPE methods have been proposed in recent years, comparing results between papers is difficult because currently there is a lack of a comprehensive and unified benchmark, and measuring algorithmic progress has been challenging due to the lack of difficult evaluation tasks. In order to address this gap, we present a collection of policies that in conjunction with existing offline datasets can be used for benchmarking off-policy evaluation. Our tasks include a range of challenging high-dimensional continuous control problems, with wide selections of datasets and policies for performing policy selection. The goal of our benchmark is to provide a standardized measure of progress that is motivated from a set of principles designed to challenge and test the limits of existing OPE methods. We perform an evaluation of state-of-the-art algorithms and provide open-source access to our data and code to foster future research in this area.

研究动机与目标

解决深度强化学习中离策略评估（OPE）缺乏统一、具有挑战性的基准的问题。
在多样化的高维连续控制环境中，实现OPE方法的标准化、可复现评估。
在不同数据集覆盖范围和支持条件下，支持策略价值估计、排序与选择的评估。
提供大规模、长时程的离线数据集，包含多样化的行为策略，以压力测试OPE算法。
通过发布开源数据集、目标策略、评估代码和基线结果，推动离线强化学习的发展。

提出的方法

DOPE基准为每个任务包含10至96种策略，涵盖不同性能水平，用于评估策略价值估计与选择。
使用D4RL和RL Unplugged中的成熟离线强化学习环境，包括Ant、Hopper、Walker2d和HalfCheetah，具有高维连续动作空间。
在理想与对抗性设置下进行评估——通过改变数据集覆盖范围和支持程度，测试OPE方法的鲁棒性。
采用诸如 regret@1、均方误差（MSE）以及估计回报与真实回报之间的相关性等指标衡量性能。
提供标准化的评估API，并报告了最先进OPE算法（如DICE、VPM、双重稳健、FQE、IS）在所有任务上的结果。
该框架支持单策略价值估计与多策略选择，实现对OPE算法的全面评估。

实验结果

研究问题

RQ1现有OPE方法在多样化、高维、长时程的连续控制任务中表现如何？
RQ2OPE方法在不同数据集覆盖范围和支持条件下，其泛化能力如何？
RQ3当仅能使用离线数据时，OPE方法在从候选策略集中对最佳策略进行排序与选择方面表现如何？
RQ4在具有多样化行为策略的真实复杂环境中，最先进OPE算法的相对性能如何？
RQ5在具有挑战性的离线评估场景中，不同OPE方法在偏差、方差与鲁棒性之间如何权衡？

主要发现

双重稳健（Doubly Robust）和FQE（L2）在大多数任务中始终表现出最低的 regret@1，其在Ant和Hopper任务中专家策略与中等策略下的值均低于0.20。
最佳DICE在Ant和Hopper任务中表现强劲，在理想设置下 regret@1 值为0.17–0.18，但在对抗性设置下表现不佳且方差较高。
重要性采样（IS）表现出高方差与较差性能，多个任务中 regret@1 超过0.5，尤其在低覆盖数据集下更为明显。
VPM在各任务中表现稳定，但在大多数设置下仍落后于DICE与双重稳健，特别是在高方差或低支持场景中。
散点图显示，大多数方法存在显著估计误差，Walker2d与Ant任务中尤为明显，尤其在随机或中等策略下存在显著异常值。
该基准揭示，数据集覆盖范围与支持程度对OPE性能有显著影响，即使在理想设置下表现良好，方法在对抗性设置下仍可能严重失效。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。