Skip to main content
QUICK REVIEW

[论文解读] Off-Policy Evaluation via the Regularized Lagrangian

Mengjiao Yang, Ofir Nachum|arXiv (Cornell University)|Jul 7, 2020
Advanced Causal Inference Techniques参考文献 31被引用 23
一句话总结

本文将DICE系列离策略评估估计器统一为同一线性规划的正则化拉格朗日函数,揭示了对偶解可提供更优的优化稳定性并降低偏差。作者通过该框架识别出更广泛的估计器类别,实证表明对偶正则化方法在多个环境中均优于原始方法与未正则化方法,在稳定性和准确性方面表现更优。

ABSTRACT

The recently proposed distribution correction estimation (DICE) family of estimators has advanced the state of the art in off-policy evaluation from behavior-agnostic data. While these estimators all perform some form of stationary distribution correction, they arise from different derivations and objective functions. In this paper, we unify these estimators as regularized Lagrangians of the same linear program. The unification allows us to expand the space of DICE estimators to new alternatives that demonstrate improved performance. More importantly, by analyzing the expanded space of estimators both mathematically and empirically we find that dual solutions offer greater flexibility in navigating the tradeoff between optimization stability and estimation bias, and generally provide superior estimates in practice.

研究动机与目标

  • 基于正则化拉格朗日函数,将不同的DICE估计器统一于单一理论框架之下。
  • 识别并分析将线性规划转化为稳定极小化-极大化优化的关键设计选择,以实现离策略评估。
  • 探索DICE估计器中优化稳定性与估计偏差之间的权衡。
  • 通过系统分析扩展的估计器空间,发现改进的离策略评估方法。
  • 通过实证验证,对偶正则化估计器在稳定性和准确性方面优于现有方法。

提出的方法

  • 将离策略评估形式化为源自策略评估问题的线性规划(d-LP)。
  • 将现有DICE估计器重新解释为同一d-LP的特定正则化拉格朗日函数实例。
  • 引入对偶变量正则化及冗余约束,以稳定优化过程。
  • 提出统一框架,以探索DICE估计器空间中的新配置。
  • 采用线性与神经网络函数逼近器,在多种环境中评估估计器性能。
  • 通过消融研究与奖励变换实验,分离正则化与约束的影响。

实验结果

研究问题

  • RQ1如何将DICE估计器的不同推导统一于单一理论框架之下?
  • RQ2对偶解在离策略评估中如何平衡优化稳定性与估计偏差?
  • RQ3对原始变量与对偶变量进行正则化,分别如何影响估计器性能与稳定性?
  • RQ4通过探索正则化拉格朗日配置的扩展空间,能否发现新的、更优的DICE估计器?
  • RQ5正性约束与冗余约束在多大程度上提升训练稳定性和估计准确性?

主要发现

  • 对偶正则化估计器相比原始变量正则化或未正则化方法,展现出显著提升的优化稳定性。
  • 表现最佳的估计器BestDICE在训练稳定性和最终估计准确性方面,均优于原始拉格朗日函数的原始与对偶变体。
  • 对偶变量正则化相比原始变量正则化,能产生更稳定且偏差更小的估计,尤其在奖励缩放与偏移条件下表现更优。
  • 对原始变量施加正性约束可增强训练稳定性,尽管无约束形式更稳定但可能引入偏差。
  • 冗余约束与对偶正则化的引入对稳定优化至关重要,未正则化拉格朗日求解器的失败已证实这一点。
  • 在Grid、Reacher与CartPole环境中的实证结果表明,对偶正则化估计器泛化能力更强,且对奖励变换的敏感性更低。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。