QUICK REVIEW

[论文解读] Consistent On-Line Off-Policy Evaluation

Assaf Hallak, Shie Mannor|arXiv (Cornell University)|Feb 23, 2017

Smart Grid Energy Management被引用 39

一句话总结

本文提出COP-TD(λ, β)，一种新颖的在线离策略时差学习算法，通过校正行为策略与目标策略之间平稳分布不匹配所引入的偏差，实现一致性。该算法在函数逼近下，收敛至与在线策略TD(λ)相同的值，优于现有方法如ETD(λ, β)，尤其在分布差异较大的场景中表现更优。

ABSTRACT

The problem of on-line off-policy evaluation (OPE) has been actively studied in the last decade due to its importance both as a stand-alone problem and as a module in a policy improvement scheme. However, most Temporal Difference (TD) based solutions ignore the discrepancy between the stationary distribution of the behavior and target policies and its effect on the convergence limit when function approximation is applied. In this paper we propose the Consistent Off-Policy Temporal Difference (COP-TD($λ$, $β$)) algorithm that addresses this issue and reduces this bias at some computational expense. We show that COP-TD($λ$, $β$) can be designed to converge to the same value that would have been obtained by using on-policy TD($λ$) with the target policy. Subsequently, the proposed scheme leads to a related and promising heuristic we call log-COP-TD($λ$, $β$). Both algorithms have favorable empirical results to the current state of the art on-line OPE algorithms. Finally, our formulation sheds some new light on the recently proposed Emphatic TD learning.

研究动机与目标

解决在应用函数逼近时离策略TD学习中因行为策略与目标策略之间平稳分布不匹配而导致的不一致性问题。
开发一种在线算法，在线性函数逼近下收敛至与在线策略TD(λ)相同的固定点。
降低对超参数β的依赖，该参数在先前方法如ETD(λ, β)中影响稳定性和收敛性。
提供一个理论基础坚实且可实现的框架，用于一致的在线离策略评估。
探索TD(λ)的统计解释，导出一种启发式变体log-COP-TD(λ, β)，以提升鲁棒性。

提出的方法

提出COP-TD(λ, β)，一种在线离策略TD算法，通过修改资格迹更新方式，引入平稳分布比dπ(s)/dμ(s)，确保与在线策略TD(λ)的一致性。
引入一种新更新规则，通过加权资格迹引入平稳分布比，校正函数逼近下值函数估计的偏差。
将该算法推导为修正贝尔曼算子的解，使极限点与在线策略TD(λ)对齐，使用修正后的特征空间投影。
提出一种启发式变体log-COP-TD(λ, β)，通过近似log(ρd)而非ρd，降低对β的敏感性，提升经验稳定性。
在链式MDP、随机MDP、acrobot和cart-pole环境中，通过与ETD(λ, β)和GTD(λ, β)对比，实证验证了该方法的有效性。
使用加权误差度量∥V̂ − ΠπTVπ∥²_dπ评估收敛至在线策略固定点的表现，真实值通过在独立轨迹上运行在线策略TD获得。

实验结果

研究问题

RQ1能否通过校正平稳分布的不匹配，使函数逼近下的离策略TD学习与在线策略TD(λ)保持一致？
RQ2COP-TD(λ, β)在收敛精度和对β的鲁棒性方面，与ETD(λ, β)和GTD(λ, β)相比表现如何？
RQ3所提出的log-COP-TD(λ, β)变体是否降低了对β的敏感性，同时保持或提升估计精度？
RQ4平稳分布比dπ(s)/dμ(s)在函数逼近下对离策略TD算法的收敛行为有何影响？
RQ5TD(λ)的统计解释能否通过基于方差或对数加权的方式，带来改进的离策略估计？

主要发现

当使用正确的一组特征时，COP-TD(λ, β)收敛至与在线策略TD(λ)相同的固定点，实现理论一致性。
与ETD(λ, β)相比，该算法对超参数β的敏感性显著降低，尤其在分布差异较大的环境中表现更优。
在100个状态的链式MDP中，COP-TD(λ, β)和log-COP-TD(λ, β)在β较大时显著优于ETD(λ, β)和GTD(λ, β)。
在acrobot和cart-pole环境中，COP-TD(λ, β)和log-COP-TD(λ, β)的性能与ETD(λ, β)相当或更优，且值估计误差更低。
log-COP-TD(λ, β)变体对β的敏感性更低，在不同MDP中表现出更稳定的性能，当γ_log调优后达到最优表现。
GTD(λ, β)在所有设置中表现均逊色，尤其在高策略差异下，凸显其更新规则在该场景下的局限性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。