[论文解读] Quantifying Generalization in Reinforcement Learning
本文介绍 CoinRun,一个用于量化泛化的程序化生成的强化学习基准,揭示了标准训练设置下的显著过拟合,并显示架构选择和正则化技术可在强化学习中提升泛化能力。
In this paper, we investigate the problem of overfitting in deep reinforcement learning. Among the most common benchmarks in RL, it is customary to use the same environments for both training and testing. This practice offers relatively little insight into an agent's ability to generalize. We address this issue by using procedurally generated environments to construct distinct training and test sets. Most notably, we introduce a new environment called CoinRun, designed as a benchmark for generalization in RL. Using CoinRun, we find that agents overfit to surprisingly large training sets. We then show that deeper convolutional architectures improve generalization, as do methods traditionally found in supervised learning, including L2 regularization, dropout, data augmentation and batch normalization.
研究动机与目标
- 通过将训练环境与测试环境分离,激励在深度强化学习中对显式泛化指标的需求。
- 证明代理在大规模训练集上过拟合,并在 CoinRun 上量化泛化差距。
- 评估架构选择和正则化技术如何影响程序化生成任务中的强化学习泛化。
提出的方法
- 引入 CoinRun,一个具有固定奖励结构的程序化生成环境,用于评估零-shot 泛化。
- 在不同数量的训练关卡上训练多个代理,并在不进行微调的情况下衡量零-shot 测试性能。
- 比较 CNN 架构(Nature-CNN 与 IMPALA-CNN),并扩展到 IMPALA-Large 以评估泛化差异。
- 应用来自监督学习的正则化技术(L2、dropout、数据增强、批量归一化),并评估它们对泛化的影响。
- 通过环境或策略引入随机性(epsilon-greedy、熵奖励),以研究对泛化的影响。
- 探索其他环境(CoinRun-Platforms、RandomMazes)以印证过拟合发现。
实验结果
研究问题
- RQ1当训练和测试在不同的程序化生成关卡集合上进行时,强化学习代理在多大程度上会过拟合?
- RQ2架构选择(CNN 变体)如何影响 CoinRun 的零-shot 泛化?
- RQ3正则化方法(L2、dropout、数据增强、批量归一化)对强化学习泛化的影响是什么?
- RQ4增加环境或策略中的随机性是否能改善泛化,效果有多大?
- RQ5结果是否可推广到 CoinRun 之外的其他程序化生成任务?
主要发现
- 当在少于 4,000 个训练关卡上训练时,代理表现出显著的过拟合,即使在 16,000 个关卡时差距仍然存在。
- IMPALA-CNN 架构在训练集和测试时间上均比 Nature-CNN 更具泛化性。
- 更深的变体(IMPALA-Large)可以进一步提升泛化。
- L2 正则化和 dropout 能降低泛化差距,其中 dropout 设为 p=0.1、L2 权重 w=1e-4 时效果尤为显著。
- 数据增强(类似 Cutout 的掩码)和批量归一化显著提升泛化。
- 通过 epsilon-greedy 动作或熵奖励引入随机性常比单独正则化更能提升泛化。
- 将数据增强、批量归一化和 L2 正则化结合起来可获得 modest 额外提升;将随机性与正则化结合在一起的效果则不太稳定。
- 在 CoinRun-Platforms 和 RandomMazes 上的正则化与架构改进证实了强化学习中的显著过拟合和泛化挑战。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。