QUICK REVIEW

[论文解读] Is Pessimism Provably Efficient for Offline RL?

Ying Jin, Zhuoran Yang|arXiv (Cornell University)|Dec 30, 2020

Reinforcement Learning in Robotics参考文献 68被引用 25

一句话总结

该论文提出PEVI，一种用于离线强化学习的悲观值迭代算法，通过惩罚函数来抵消低覆盖轨迹带来的虚假相关性。该方法建立了依赖于数据的次优性界，对于线性MDP，在对数因子范围内达到极小极大最优，证明了悲观主义在无需强数据覆盖假设下具有可证明的高效性。

ABSTRACT

We study offline reinforcement learning (RL), which aims to learn an optimal policy based on a dataset collected a priori. Due to the lack of further interactions with the environment, offline RL suffers from the insufficient coverage of the dataset, which eludes most existing theoretical analysis. In this paper, we propose a pessimistic variant of the value iteration algorithm (PEVI), which incorporates an uncertainty quantifier as the penalty function. Such a penalty function simply flips the sign of the bonus function for promoting exploration in online RL, which makes it easily implementable and compatible with general function approximators. Without assuming the sufficient coverage of the dataset, we establish a data-dependent upper bound on the suboptimality of PEVI for general Markov decision processes (MDPs). When specialized to linear MDPs, it matches the information-theoretic lower bound up to multiplicative factors of the dimension and horizon. In other words, pessimism is not only provably efficient but also minimax optimal. In particular, given the dataset, the learned policy serves as the "best effort" among all policies, as no other policies can do better. Our theoretical analysis identifies the critical role of pessimism in eliminating a notion of spurious correlation, which emerges from the "irrelevant" trajectories that are less covered by the dataset and not informative for the optimal policy.

研究动机与目标

解决离线强化学习中数据集覆盖不足且无法通过交互改进的问题。
识别并解决虚假相关性问题——即低覆盖、高奖励轨迹误导学习的问题，而无需假设均匀覆盖或有限集中性。
开发一种理论基础坚实的算法，即使数据集未能覆盖最优策略诱导的轨迹，也能保持高效。
建立悲观主义在离线强化学习中的极小极大最优性，表明所学策略是在给定数据下可能的最佳策略。

提出的方法

提出PEVI，一种悲观化的值迭代变体，其惩罚函数通过将在线强化学习中使用的乐观奖励项符号取反而获得。
将惩罚函数定义为不确定性度量，确保其对高不确定性且低数据覆盖的动作施加惩罚。
将次优性分解为三个部分：内在不确定性、虚假相关性和优化误差，从而隔离悲观主义在消除虚假相关性中的作用。
对于线性MDP，使用基于核的不确定性度量实例化惩罚函数，利用自归一化过程和核岭回归。
利用再生核希尔伯特空间（RKHS）中自归一化过程的集中不等式，界定估计误差并推导出依赖于数据的泛化界。
建立极小极大下界，并证明PEVI的次优性在维度和时间跨度上仅相差对数因子，从而证明其最优性。

实验结果

研究问题

RQ1在不假设数据集覆盖充分的前提下，悲观主义能否在离线强化学习中被证明是高效的？
RQ2悲观主义在消除低覆盖、高奖励轨迹引发的虚假相关性中起什么作用？
RQ3是否存在一种依赖于数据的离线强化学习次优性界，且在最小假设下仍保持紧致性？
RQ4悲观值迭代能否在不依赖有限集中性或有界密度比的前提下，实现线性MDP中的极小极大最优性？
RQ5在PEVI下学习到的策略是否代表了在给定数据集下可能的最佳策略，无论是否存在虚假数据模式？

主要发现

PEVI在无需有限集中性系数或访问密度均匀下界假设的前提下，为一般MDP建立了依赖于数据的次优性界。
对于线性MDP，PEVI的次优性在维度和时间跨度上仅相差对数因子，与信息论下界一致，证明了极小极大最优性。
PEVI中的惩罚函数作为不确定性度量，有效消除了虚假相关性对次优性的贡献。
由于信息论限制，离线强化学习中的内在不确定性无法被消除，这确认其为根本性障碍。
PEVI表现出一种“预言机”性质：其次优性仅取决于数据集对最优策略轨迹的覆盖程度，而不受无关的高奖励、低覆盖轨迹的影响。
理论分析在最小假设下成立——仅需数据收集过程符合要求——使其适用于真实世界中数据覆盖有限的场景。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。