QUICK REVIEW

[论文解读] Prioritized Experience Replay

Tom Schaul, John Quan|arXiv (Cornell University)|Nov 18, 2015

Neural dynamics and brain function参考文献 29被引用 2,034

一句话总结

本论文提出优先经验回放（prioritized experience replay），它对更有信息量的转移（高 TD-error）进行采样以提升学习效率，并且在与 Double DQN 结合时展示出更快的学习速度及 Atari 结果的先进水平。

ABSTRACT

Experience replay lets online reinforcement learning agents remember and reuse experiences from the past. In prior work, experience transitions were uniformly sampled from a replay memory. However, this approach simply replays transitions at the same frequency that they were originally experienced, regardless of their significance. In this paper we develop a framework for prioritizing experience, so as to replay important transitions more frequently, and therefore learn more efficiently. We use prioritized experience replay in Deep Q-Networks (DQN), a reinforcement learning algorithm that achieved human-level performance across many Atari games. DQN with prioritized experience replay achieves a new state-of-the-art, outperforming DQN with uniform replay on 41 out of 49 games.

研究动机与目标

激发在线 RL 中经验回放的低效问题以及优先化带来的潜在收益。
开发以 TD-error 为优先度量的随机化优先经验回放机制。
通过随机化优先化和重要性采样解决偏差与多样性问题。
展示在 Atari 2600 基准测试中使用 Double DQN 的可扩展性和有效性。
概述对监督学习和离策略场景的扩展。

提出的方法

将转移优先度 p_i 定义为 TD-error 的大小 |δ_i|，或基于排名的等效值。
从回放记忆中采样，P(i) ∝ p_i^α，以偏向信息丰富的经验（α 控制优先化程度）。
使用随机优先化以保持多样性并减轻偏差。
使用重要性采样权重 w_i 来纠正采样偏差，并在训练过程中使 β 逐步趋向 1。
将优先回放集成到 Double DQN 中，替代回放步骤中的均匀采样。
为大容量记忆提供高效实现（sum-tree 或基于段的采样）。

实验结果

研究问题

RQ1基于 TD-error 对回放进行优先排序是否能提升相对于均匀回放的学习效率？
RQ2随机优先化与 IS 校正是否能在函数逼近领域维持收敛并降低偏差？
RQ3优先回放如何与先进的 RL 架构（如 Double DQN）在像 Atari 这样的具有挑战性的基准测试中互动？
RQ4在大规模应用中的实际考虑因素（超参数 α、β、记忆容量）有哪些？

主要发现

优先回放显著加速学习并提升 Atari 游戏上的表现。
将优先回放加入 DQN 在 49 款游戏中有 41 款取得提升，且提高中位数表现。
将优先回放与 Double DQN 结合实现了新的 Atari 先进表现，提升中位数和均值分数。
基于排名的优先化与比例优先化通常表现相似且优于均匀回放。
两种变体都缩短达到强性能的时间，并在初始学习缓慢的游戏中提供帮助。
将 IS 校正（β）退火以在训练中平衡偏差与学习稳定性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。