QUICK REVIEW

[论文解读] Safe and Efficient Off-Policy Reinforcement Learning

Rémi Munos, Thomas Stepleton|arXiv (Cornell University)|Jun 8, 2016

Reinforcement Learning in Robotics参考文献 22被引用 93

一句话总结

本文提出了一种新型的离策略强化学习算法 Retrace(λ)，该算法结合了树回溯（tree-backup）的安全性与基于回报的学习效率。该方法在无需 GLIE 假设的前提下，确保了低方差、稳定的最优 Q 值函数 Q* 收敛，并证明了 Watkins 的 Q(λ) 算法的收敛性——这是自 1989 年以来长期悬而未决的开放问题。该方法使用截断的校正项进行重要性采样，以处理任意行为策略，同时高效利用在线策略数据。

ABSTRACT

In this work, we take a fresh look at some old and new algorithms for off-policy, return-based reinforcement learning. Expressing these in a common form, we derive a novel algorithm, Retrace($λ$), with three desired properties: (1) it has low variance; (2) it safely uses samples collected from any behaviour policy, whatever its degree of "off-policyness"; and (3) it is efficient as it makes the best use of samples collected from near on-policy behaviour policies. We analyze the contractive nature of the related operator under both off-policy policy evaluation and control settings and derive online sample-based algorithms. We believe this is the first return-based off-policy control algorithm converging a.s. to $Q^*$ without the GLIE assumption (Greedy in the Limit with Infinite Exploration). As a corollary, we prove the convergence of Watkins' Q($λ$), which was an open problem since 1989. We illustrate the benefits of Retrace($λ$) on a standard suite of Atari 2600 games.

研究动机与目标

解决基于回报的学习（低方差，适用于函数逼近）与自举法（适用于离策略数据的高效性）之间的根本权衡，旨在结合两者的优势。
开发一种对任意离策略行为策略均安全的方法，避免因离策略程度过高而导致发散。
通过利用经验回放中的完整回报，确保在行为策略与目标策略相近时具有高样本效率。
消除离策略控制中对 GLIE 假设的需求，实现在无需无限探索的情况下实现收敛。
为 Watkins 的 Q(λ) 提供理论收敛证明，这是强化学习领域长期存在的开放问题。

提出的方法

基于 λ-回报和重要性采样，建立一个统一的数学框架，形式化离策略基于回报的算法。
提出 Retrace(λ)，其使用截断的重要性采样比率 min(1, π(a|x)/μ(a|x)) 来稳定学习，并在任意行为策略下确保收敛。
将 Retrace 算子集成到适用于经验回放和深度强化学习的在线、基于样本的学习算法中。
为策略评估与控制推导出一个压缩算子，证明在无需 GLIE 假设的情况下，几乎必然收敛至 Q*。
通过 λ-回报扩展，平衡自举与蒙特卡洛回报估计，实现灵活且稳定的训练。
将该算法应用于 Atar 2600 环境中的深度 Q 网络，展示了其在多种游戏中的稳健性能。

实验结果

研究问题

RQ1如何设计一种离策略基于回报的强化学习算法，使其在行为策略与目标策略相距甚远时仍能保持稳定与收敛？
RQ2对现有基于回报的算法进行哪些修改，才能在无需 GLIE 假设的前提下，确保收敛至最优 Q 函数 Q*？
RQ3Retrace(λ) 算法是否能在接近在线策略的设置中实现高样本效率，同时在高度离策略的设置中保持鲁棒性？
RQ4Retrace(λ) 是否为解决 Watkins 的 Q(λ) 算法收敛性这一长期悬而未决的问题提供了方案？
RQ5Retrace(λ) 是否能在具有经验回放和函数逼近的深度强化学习设置中被有效应用？

主要发现

Retrace(λ) 是首个在线、基于回报、离策略控制算法，其几乎必然收敛至最优 Q 值函数 Q*，且无需 GLIE 假设。
通过将重要性采样比率截断至 1，该算法实现了稳定且低方差的学习，即使在高度离策略的行为策略下也确保了安全性。
在 Atari 2600 套件的实验中，Retrace(λ) 的表现优于 Tree-backup(λ) 和标准 DQN，在多个游戏中平均得分更高。
在 Atlantis、Space Invaders 和 Video Pinball 等游戏中，Retrace(λ) 表现尤为出色，分别取得了 2,110,401、6,096 和 228,283 的最终得分，显著优于 DQN 和 Tree-backup。
本文证明了 Watkins 的 Q(λ) 几乎必然收敛至 Q*，解决了自 1989 年以来在强化学习领域长期存在的开放问题。
Retrace(λ) 有效平衡了自举与回报估计之间的权衡，使其在接近在线策略的场景中高效，在高度离策略的场景中也安全可靠。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。