QUICK REVIEW

[论文解读] Minimax Weight and Q-Function Learning for Off-Policy Evaluation

Masatoshi Uehara, Jiawei Huang|arXiv (Cornell University)|Oct 28, 2019

Reinforcement Learning in Robotics参考文献 44被引用 29

一句话总结

本文提出MWL与MQL两种新型离策略评估估计器，通过在函数类上进行极小化-极大化优化，学习重要性权重与Q函数，从而消除对行为策略知识的依赖。这些方法在表格设置中实现半参数效率，并统一了现有算法，其中MQL通过双重稳健估计实现了更优的样本复杂度与鲁棒性。

ABSTRACT

We provide theoretical investigations into off-policy evaluation in reinforcement learning using function approximators for (marginalized) importance weights and value functions. Our contributions include: (1) A new estimator, MWL, that directly estimates importance ratios over the state-action distributions, removing the reliance on knowledge of the behavior policy as in prior work (Liu et al., 2018). (2) Another new estimator, MQL, obtained by swapping the roles of importance weights and value-functions in MWL. MQL has an intuitive interpretation of minimizing average Bellman errors and can be combined with MWL in a doubly robust manner. (3) Several additional results that offer further insights into these methods, including the sample complexity analyses of MWL and MQL, their asymptotic optimality in the tabular setting, how the learned importance weights depend the choice of the discriminator class, and how our methods provide a unified view of some old and new algorithms in RL.

研究动机与目标

开发新型离策略评估估计器，无需显式依赖行为策略知识。
通过函数逼近提升离策略价值估计的样本效率与统计鲁棒性。
提供一个统一的理论框架，连接边际重要性采样、Q函数学习与现有强化学习算法。
为所提估计器的样本复杂度与渐近最优性建立理论保证。
证明状态动作函数建模可在表格设置中实现半参数效率下界。

提出的方法

提出MWL，一种极小化-极大化估计器，通过判别器类直接学习状态动作重要性比率，避免对行为策略知识的依赖。
通过在MWL中交换重要性权重与Q函数的角色，引入MQL，实现以重要性权重作为判别器的Q函数学习。
采用极小化-极大化目标，利用状态动作对上的函数逼近器平衡重要性权重与Q函数的拟合程度。
推导MWL与MQL的样本复杂度边界，表明在温和表示假设下具有更优的收敛速率。
将MWL与MQL结合为双重稳健估计器，以增强方差缩减与对模型误设的鲁棒性。
采用基于核的函数类并结合自适应带宽选择（中位数启发式）与批量归一化，以稳定神经网络逼近器的训练。

实验结果

研究问题

RQ1是否可以在不显式依赖行为策略密度知识的前提下实现离策略评估？
RQ2在函数逼近下，MWL与MQL的样本复杂度与先前方法相比如何？
RQ3状态动作函数建模是否可在表格离策略评估中实现半参数效率下界？
RQ4MWL/MQL与LSTDQ和分步重要性采样等现有算法之间存在何种关系？
RQ5判别器类的选择如何影响学习到的重要性权重与估计性能？

主要发现

当对状态动作函数进行建模时，MWL与MQL在表格设置中达到半参数效率下界，而其状态函数变体则不能。
通过与MWL结合形成双重稳健估计器，MQL展现出更优的样本复杂度与鲁棒性，有效降低估计方差。
在基于历史的MDP形式化下，分步重要性采样在回合制MDP中被正式证明为MWL的特例。
当重要性权重与Q函数均使用相同的线性类进行建模时，MWL与MQL分别恢复LSTDQ与离策略LSTD作为特例。
实验结果表明，MQL与MWL在不同目标策略与样本规模下，均优于DualDICE与MSWL，归一化均方误差更低，负对数归一化误差得分表明其相对于基线的一致性改进。
采用基于核的函数类并结合自适应带宽（MWL为h/3，MQL为h/15）与批量归一化，可实现稳定训练并提升性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。