Skip to main content
QUICK REVIEW

[论文解读] Infinite-horizon Off-Policy Policy Evaluation with Multiple Behavior Policies

Xinyun Chen, Lu Wang|arXiv (Cornell University)|Apr 30, 2020
Advanced Causal Inference Techniques参考文献 16被引用 2
一句话总结

本文提出了一种新型的离策略评估方法——估计混合策略(Estimated Mixture Policy, EMP),该方法利用多个行为策略来降低估计状态和状态-动作平稳分布校正时的方差。EMP通过结合与策略无关的估计与结构化的归纳偏置,在无限时域离策略评估中提升了准确性,优于连续和离散环境中的最先进方法。

ABSTRACT

We consider off-policy policy evaluation when the trajectory data are generated by multiple behavior policies. Recent work has shown the key role played by the state or state-action stationary distribution corrections in the infinite horizon context for off-policy policy evaluation. We propose estimated mixture policy (EMP), a novel class of partially policy-agnostic methods to accurately estimate those quantities. With careful analysis, we show that EMP gives rise to estimates with reduced variance for estimating the state stationary distribution correction while it also offers a useful induction bias for estimating the state-action stationary distribution correction. In extensive experiments with both continuous and discrete environments, we demonstrate that our algorithm offers significantly improved accuracy compared to the state-of-the-art methods.

研究动机与目标

  • 解决从多个行为策略收集数据时,实现准确离策略策略评估的挑战。
  • 降低估计平稳分布校正的方差——这对无限时域离策略评估至关重要。
  • 提出一种在保持与策略无关估计的同时,融入有助于状态-动作分布校正的有用归纳偏置的方法。
  • 在离散和连续控制环境中,提升估计准确性,优于现有最先进方法。

提出的方法

  • 提出估计混合策略(EMP),一种用于估计平稳分布校正的局部与策略无关方法类别。
  • 利用来自多个行为策略的实证数据,构建基于混合的估计器以估计状态平稳分布校正。
  • 通过严谨的理论分析,证明EMP可降低状态平稳分布估计的方差。
  • 引入结构化的归纳偏置,以改善状态-动作平稳分布校正的估计。
  • 整合多个行为策略的数据,以增强离策略评估的鲁棒性并降低方差。
  • 利用行为策略的混合来提升泛化能力和估计准确性,而无需完全掌握行为策略的行为。

实验结果

研究问题

  • RQ1能否有效结合多个行为策略,以降低无限时域设置下离策略评估的方差?
  • RQ2与现有与策略无关的方法相比,所提出的EMP方法在估计准确性方面有何改进?
  • RQ3结构化的归纳偏置对估计状态-动作平稳分布校正有何影响?
  • RQ4EMP在多样化环境中如何优于最先进方法?
  • RQ5行为策略的混合如何影响平稳分布校正估计的稳定性和准确性?

主要发现

  • EMP通过基于混合的估计方法,显著降低了状态平稳分布校正的估计方差。
  • 该方法提供了有益的归纳偏置,增强了对状态-动作平稳分布校正的估计准确性。
  • 实证结果表明,EMP在连续和离散环境中均实现了优于最先进方法的估计准确性。
  • 所提出的方法在多样化的强化学习基准测试中表现出一致的性能提升。
  • 理论分析证实,EMP在保持低方差估计的同时,保留了与策略无关的特性。
  • 实验验证了在无限时域设置下,使用多个行为策略可实现更鲁棒和更准确的离策略评估。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。