QUICK REVIEW

[论文解读] Off-Policy Actor-Critic

Thomas Degris, Martha White|arXiv (Cornell University)|May 22, 2012

Reinforcement Learning in Robotics参考文献 22被引用 56

一句话总结

本文提出了 Off-PAC，这是首个结合策略方法灵活性与离策略时序差分学习数据效率的离策略演员-评论家强化学习算法。它利用eligibility traces 和梯度-TD学习（GTD(λ)），实现线性时间、增量式更新，在标准假设下证明了收敛性，并在基准任务中表现出优于 Q(λ)、Greedy-GQ 和 Softmax-GQ 的性能与更低方差。

ABSTRACT

This paper presents the first actor-critic algorithm for off-policy reinforcement learning. Our algorithm is online and incremental, and its per-time-step complexity scales linearly with the number of learned weights. Previous work on actor-critic algorithms is limited to the on-policy setting and does not take advantage of the recent advances in off-policy gradient temporal-difference learning. Off-policy techniques, such as Greedy-GQ, enable a target policy to be learned while following and obtaining data from another (behavior) policy. For many problems, however, actor-critic methods are more practical than action value methods (like Greedy-GQ) because they explicitly represent the policy; consequently, the policy can be stochastic and utilize a large action space. In this paper, we illustrate how to practically combine the generality and learning potential of off-policy learning with the flexibility in action selection given by actor-critic methods. We derive an incremental, linear time and space complexity algorithm that includes eligibility traces, prove convergence under assumptions similar to previous off-policy algorithms, and empirically show better or comparable performance to existing algorithms on standard reinforcement-learning benchmark problems.

研究动机与目标

开发一种强化学习算法，实现具有演员-评论家结构的离策略学习，克服在线策略方法的局限性。
将离策略学习的通用性与演员-评论家方法的策略表示灵活性相结合，尤其适用于随机策略和大规模动作空间。
设计一种具有线性时间与空间复杂度的方法，支持eligibility traces 和增量式更新。
在与先前离策略梯度-TD方法相似的假设下，证明所提算法的收敛性。
在标准基准问题上，对 Off-PAC 与现有离策略算法进行实证评估。

提出的方法

提出 Off-PAC，一种具有两个组件的离策略演员-评论家算法：一个学习策略权重的演员，以及一个使用离策略数据估计当前策略值函数的评论家。
采用 GTD(λ)，一种带有eligibility traces 的梯度-TD方法，从离策略经验中学习评论家的值函数估计。
利用eligibility traces 推导出策略权重的反向视角更新规则，实现增量式与线性时间更新。
定义一个新的策略目标函数，并推导出在离策略条件下有效的策略梯度更新。
采用双时间尺度更新规则，使评论家比演员更频繁更新，从而确保稳定性和收敛性。
应用学习率调度和子采样技术，以提升实际应用中的鲁棒性与稳定性。

实验结果

研究问题

RQ1演员-评论家方法能否在保持收敛性与效率的前提下扩展至离策略学习？
RQ2如何有效将eligibility traces 集成到具有线性复杂度的离策略演员-评论家学习中？
RQ3与 Q(λ) 和 Greedy-GQ 等现有离策略值函数方法相比，离策略演员-评论家方法在最终性能与样本效率方面是否更优？
RQ4与动作值函数方法相比，离策略演员-评论家学习是否能实现更低方差与更稳定的训练？
RQ5哪些参数设置与更新调度策略能带来离策略演员-评论家学习中的鲁棒性能？

主要发现

Off-PAC 在全部三个基准问题中均取得了最佳最终性能，包括连续网格世界，在该任务中它是唯一能稳定学习出成功抵达目标的策略的算法。
Off-PAC 在所有运行中始终表现出最低的标准误差，表明其相比 Q(λ)、Greedy-GQ 和 Softmax-GQ 具有更高的鲁棒性与更低方差。
在连续网格世界任务中，Off-PAC 在 5,000 集合后成功学习出可抵达目标的策略，而其他算法未能可靠实现此目标。
该算法表现出线性时间与空间复杂度，能随学习权重数量高效扩展。
在与先前离策略梯度-TD方法相似的假设下证明了收敛性，验证了其理论基础的可靠性。
实证结果表明，Off-PAC 比基于动作值的方法对离策略噪声更具鲁棒性，因此在现实应用中具有广阔前景。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。