QUICK REVIEW

[论文解读] Leveraging Procedural Generation to Benchmark Reinforcement Learning

Karl Cobbe, Christopher Hesse|arXiv (Cornell University)|Dec 3, 2019

Reinforcement Learning in Robotics参考文献 25被引用 171

一句话总结

Procgen Benchmark 提供16 个通过程序生成、多样化的类游戏环境，用于评估 RL 代理的泛化能力和样本效率；结果显示模型规模越大，两个指标均提升，且多样化分布至关重要。

ABSTRACT

We introduce Procgen Benchmark, a suite of 16 procedurally generated game-like environments designed to benchmark both sample efficiency and generalization in reinforcement learning. We believe that the community will benefit from increased access to high quality training environments, and we provide detailed experimental protocols for using this benchmark. We empirically demonstrate that diverse environment distributions are essential to adequately train and evaluate RL agents, thereby motivating the extensive use of procedural content generation. We then use this benchmark to investigate the effects of scaling model size, finding that larger models significantly improve both sample efficiency and generalization.

研究动机与目标

动机：需要多样且高质量的强化学习训练环境以衡量泛化能力。
引入 Procgen 基准测试，包含 16 个通过程序生成的环境。
提供在 Procgen 上评估样本效率和泛化能力的实验协议。
展示环境多样性和模型规模对强化学习性能的影响。

提出的方法

定义16个通过程序生成的环境，具有共用的15维动作空间和64×64×3的观测。
使用确定性状态转移函数并结合程序化的关卡变异性，以要求鲁棒策略。
提供实验协议：对全分布训练200M 时间步的 PPO 基线；易难度对比。
通过在有限关卡集合（如500个关卡）上训练并在全分布上测试来衡量泛化。
在不同的训练集大小和关卡分布下评估样本效率和泛化能力。
使用 IMPALA 风格的卷积神经网络架构（1x、2x、4x 通道数）来放大模型规模并与 Nature-CNN 进行对比；相应调整学习率。

实验结果

研究问题

RQ1训练集大小如何影响跨越程序化生成关卡的泛化？
RQ2与固定关卡基准相比，程序化生成是否提升了超出训练分布的泛化能力？
RQ3在多样化的强化学习环境中，模型规模对样本效率和泛化能力有何影响？
RQ4在 Procgen 基准测试中，PPO 相较 Rainbow 在稳定性和性能方面如何？

主要发现

代理对较小的训练集过拟合严重；在大多数环境中，接触约10,000个关卡可提升泛化。
在固定的确定性关卡序列上训练会产生较大的训练/测试差距，凸显需要多样化分布。
更大规模的模型在跨环境上显著提升样本效率和泛化。
按因子扩大 IMPALA 风格通道会提升性能；较小的 Nature-CNN 在 Procgen 上常常无法训练。
PPO 在 Procgen 上相较 Rainbow 提供更一致的性能，尽管在经过调优的设置下，Rainbow 在若干环境中表现更好。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。