QUICK REVIEW

[论文解读] A Deeper Look at Experience Replay

Shangtong Zhang, Richard S. Sutton|arXiv (Cornell University)|Dec 4, 2017

Reinforcement Learning in Robotics参考文献 12被引用 185

一句话总结

这篇论文系统地分析了回放缓冲区大小如何影响在表格、线性和非线性函数逼近中的学习，证明大缓冲区可能会损害性能，并提出一个简单的 O(1) CER 方案来减轻此影响。

ABSTRACT

Recently experience replay is widely used in various deep reinforcement learning (RL) algorithms, in this paper we rethink the utility of experience replay. It introduces a new hyper-parameter, the memory buffer size, which needs carefully tuning. However unfortunately the importance of this new hyper-parameter has been underestimated in the community for a long time. In this paper we did a systematic empirical study of experience replay under various function representations. We showcase that a large replay buffer can significantly hurt the performance. Moreover, we propose a simple O(1) method to remedy the negative influence of a large replay buffer. We showcase its utility in both simple grid world and challenging domains like Atari games.

研究动机与目标

评估回放缓冲区大小在不同函数表示（表格、线性、非线性）下对学习的影响。
识别在何种条件下大型回放缓冲区会降低性能。
提出一种低成本的方法，在不增加额外计算负担的前提下缓解大型回放缓冲区的负面效应。
在简单和具有挑战性的领域（网格世界、月球着陆器、Atari Pong）上评估 CER。

提出的方法

在三个任务中比较 Online-Q、Buffer-Q 和 Combined-Q（CER）。
从回放缓冲区进行统一采样，CER 将最新转移添加到每个训练批次中。
在变化的回放缓冲区大小（例如 10^2 到 10^6）和固定的小批量大小下进行评估。
应用表格、瓦片编码线性，以及带有适当优化器的神经网络函数逼近器。
在非线性设置中，采用目标网络以获得类似于 DQN 的稳定性。
使用超时和部分情节引导（partial-episode-bootstrap）以减少超时偏差。

实验结果

研究问题

RQ1回放缓冲区大小如何影响在不同函数表示下的学习速度和最终性能？
RQ2一个简单、常数时间的修改（CER）是否能降低大型回放缓冲区的负面影响？
RQ3CER 的收益是否在网格世界、月球着陆器和 Pong 任务中随着不同的函数逼近器而持续存在？

主要发现

大型回放缓冲区在表格和线性设置中可能会减慢学习速度或降低性能。
CER 使学习对回放缓冲区大小不那么敏感，并且在大型缓冲区情形下可以恢复速度。
非线性函数逼近显示 CER 在大型缓冲区下加速学习，并减少对最近转移的过拟合。
在某些任务（Pong）中，CER 提供的改进有限，表明任务难度和表示方式会影响 CER 的效益。
在各领域中，适中的缓冲区在没有 CER 的情况下可以优于非常大的缓冲区。
CER 仅需要 O(1) 额外计算，并作为一个简单的即插即用改进。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。