[论文解读] A Study on Overfitting in Deep Reinforcement Learning
这篇论文系统地分析了深度强化学习中的过拟合,显示代理可以记住训练迷宫,测试性能波动极大,即使在最优的训练奖励下也是如此,并且基于常见随机性的方法可能无法检测或防止过拟合。
Recent years have witnessed significant progresses in deep Reinforcement Learning (RL). Empowered with large scale neural networks, carefully designed architectures, novel training algorithms and massively parallel computing devices, researchers are able to attack many challenging RL problems. However, in machine learning, more training power comes with a potential risk of more overfitting. As deep RL techniques are being applied to critical problems such as healthcare and finance, it is important to understand the generalization behaviors of the trained agents. In this paper, we conduct a systematic study of standard RL agents and find that they could overfit in various ways. Moreover, overfitting could happen "robustly": commonly used techniques in RL that add stochasticity do not necessarily prevent or detect overfitting. In particular, the same agents and learning algorithms could have drastically different test performance, even when all of them achieve optimal rewards during training. The observations call for more principled and careful evaluation protocols in RL. We conclude with a general discussion on overfitting in RL and a study of the generalization behaviors from the perspective of inductive bias.
研究动机与目标
- 研究在不同难度和训练数据条件下,深度强化学习代理从训练迷宫对未见迷宫的泛化能力。
- 评估标准的 RL 正则化技术是防止过拟合,还是在评估阶段仅仅掩盖了过拟合。
- 表征在遇到随机化奖励结构时,RL 中神经网络的记忆能力。
- 探讨归纳偏置(网络架构)在常规任务与随机任务中的泛化性能作用。
提出的方法
- 使用带有专用测试工作者的异步 A3C 框架,以分离训练与测试环境。
- 采用可配置的 gridworld 迷宫,包含 BASIC、BLOCKS 和 TUNNEL 变体,以控制任务难度和规律性。
- 在训练迷宫中引入随机化奖励扰动,以在噪声条件下测量记忆和泛化。
- 通过比较不同训练集大小和迷宫难度下的训练回合奖励与测试回合奖励来评估过拟合。
- 比较 MLP 与 ConvNet 架构,以研究归纳偏置对记忆与泛化的影响。
- 测试正则化技术(随机启动、粘性动作、RAND-SPAWN)作为训练正则化手段和评估附加项。
实验结果
研究问题
- RQ1深度强化学习代理在多大程度上能记住随机迷宫配置,这种记忆对测试性能有何影响?
- RQ2基于常见随机性的方法进行的评估或正则化技术是否能可靠地检测或防止深度 RL 中的过拟合?
- RQ3通过架构(MLP 与 ConvNet)和任务规律性来体现的归纳偏置,如何影响深度 RL 的泛化?
- RQ4训练集大小和迷宫难度如何影响深度 RL 中训练与测试性能之间的差距?
- RQ5需要哪些框架或协议来标准化 RL 泛化评估以识别过拟合?
主要发现
- 代理可以记住大量训练迷宫,即使训练奖励是最优的,也会导致训练与测试性能之间的差异极大。
- 在评估中增加随机性或正则化并不能可靠地防止或检测随机迷宫中的深度 RL 过拟合。
- 测试性能随着迷宫难度增加和训练集变小而下降,同时训练奖励仍接近最优值。
- 在常规、空间不变的任务上,ConvNets 比 MLP 更具泛化能力,而在随机任务中,只要容量足够,也能形成记忆。
- 即使在随机化奖励下,记忆容量仍然存在,导致在许多设置中训练表现高但测试泛化能力弱。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。