[论文解读] GenDICE: Generalized Offline Estimation of Stationary Values
GenDICE 是一个一致的离线估计器,用于平稳值量的估计,采用平稳分布修正比,对离线评估和离线 PageRank 具有适用性。
An important problem that arises in reinforcement learning and Monte Carlo methods is estimating quantities defined by the stationary distribution of a Markov chain. In many real-world applications, access to the underlying transition operator is limited to a fixed set of data that has already been collected, without additional interaction with the environment being available. We show that consistent estimation remains possible in this challenging scenario, and that effective estimation can still be achieved in important applications. Our approach is based on estimating a ratio that corrects for the discrepancy between the stationary and empirical distributions, derived from fundamental properties of the stationary distribution, and exploiting constraint reformulations based on variational divergence minimization. The resulting algorithm, GenDICE, is straightforward and effective. We prove its consistency under general conditions, provide an error analysis, and demonstrate strong empirical performance on benchmark problems, including off-line PageRank and off-policy policy evaluation.
研究动机与目标
- 将固定转移样本条件下对离线估计平稳量的问题形式化。
- 提出 GenDICE,一种带双嵌入目标的平稳分布修正估计量。
- 建立 GenDICE 的一致性并给出误差分析。
- 在离线 PageRank 与离线策略评估基准上展示出强劲的经验表现。
提出的方法
- 将 tau* = mu/pi 的修正形式化为密度比 tau = mu/p,并推导出对 D(T_gamma, mu0^p ◦ tau || p ◦ tau) 的最小化。
- 引入基于惩罚的可行集合以避免退化解,并证明 tau* = u/p 对于任意 lambda>0 都是带惩罚项的目标问题的解。
- 利用带 f-散度的对偶嵌入将问题转化为可用样本求解的最小-最大鞍点目标。
- 特化为卡方散度以得到实用的 J_chi^2 目标,并用神经网络对 tau 和对偶函数 f 进行参数化。
- 为鞍点提供无偏梯度估计并实现一个可扩展的基于 SGD 的算法(GenDICE)。
- 可选地扩展到基于 IPM 的散度(如 MMD),并讨论与基于核的对偶的权衡。
实验结果
研究问题
- RQ1在没有访问转移采样器的情况下,如何从固定的离线数据进行平稳值估计?
- RQ2我们能否为平稳分布定义一个修正比,使在无折扣和有折扣设置下都能得到一致的估计?
- RQ3从样本学习该比率的实用、稳定的优化目标是什么,以避免退化解?
- RQ4相较于基于模型或基于重要性采样的基线,GenDICE 在离线 PageRank 和离线策略评估中的表现如何?
主要发现
- GenDICE 在一般条件下为平稳分布修正提供了一致的估计量。
- 通过使用带 f-散度的对偶嵌入形式,该方法在 tau 上得到凸目标,并在 gamma ∈ (0,1](包括 gamma=1)下保持稳定。
- 定理 1 表明带 E_p[tau]=1 约束的惩罚目标在任意 lambda>0 时的解为 tau* = u/p,从而避免退化解。
- 卡方散度使实用的 J_chi^2 目标适合用神经网络对 tau 和对偶函数 f 进行参数化。
- 实证结果显示 GenDICE 在表格 OPR 和 Taxi 域的 OPE 设置中优于基于模型的方法,在有折扣的情形下与 DualDICE 相比仍具竞争力甚至更优,并在 gamma 接近 1 时表现更稳健。
- 该方法可扩展到使用神经网络和随机优化的连续控制任务。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。