[论文解读] Illuminating Generalization in Deep Reinforcement Learning through Procedural Level Generation
论文研究在训练期间,程序化内容生成(PCG)和 Progressive PCG(PPCG)如何影响深度强化学习代理在新、未见过的关卡上的泛化能力,包括人类设计的关卡,在多款2D游戏中。PPCG 在某些游戏上可以改善泛化和性能,而训练与测试关卡之间的分布不匹配仍然是一个关键挑战。
Deep reinforcement learning (RL) has shown impressive results in a variety of domains, learning directly from high-dimensional sensory streams. However, when neural networks are trained in a fixed environment, such as a single level in a video game, they will usually overfit and fail to generalize to new levels. When RL models overfit, even slight modifications to the environment can result in poor agent performance. This paper explores how procedurally generated levels during training can increase generality. We show that for some games procedural level generation enables generalization to new levels within the same distribution. Additionally, it is possible to achieve better performance with less data by manipulating the difficulty of the levels in response to the performance of the agent. The generality of the learned behaviors is also evaluated on a set of human-designed levels. The results suggest that the ability to generalize to human-designed levels highly depends on the design of the level generators. We apply dimensionality reduction and clustering techniques to visualize the generators' distributions of levels and analyze to what degree they can produce levels similar to those designed by a human.
研究动机与目标
- 证明深度RL代理在2D街机游戏中仅在固定、有限的关卡上训练时会过拟合。
- 评估在训练分布内及超出其外,程序化生成的关卡是否能提升泛化。
- 引入 Progressive PCG 以在训练中根据代理的表现调整关卡难度。
- 使用降维和聚类分析生成关卡分布与人类设计关卡的比较。
提出的方法
- 在 General Video Game AI (GVG-AI) 框架上,结合 CNN 的网络,使用 A2C(Advantage Actor-Critic),并连接到 OpenAI Gym。
- 实现四种训练方案:单个由人类设计的关卡;多个由人类设计的关卡;固定难度的 PCG;基于胜负信号调整难度的 Progressive PCG。
- 为 Boulderdash、Frogs、Solarfox、Zelda 开发可控难度参数的构造性 PCG 生成器,影响活动关卡大小、对象数量与布局复杂度。
- 引入 PPCG,其中关卡难度从 0 开始,胜利后增加(失败后减少),并在并行工作者之间共享难度。
- 通过在难度 0.5 和 1 的 30 个预生成关卡,以及五个人工设计关卡上测试训练好的策略来评估泛化;并与随机基线和最高分基线进行比较。
- 应用 PCA 和 DBSCAN 来可视化和分析生成关卡相对于人类设计关卡的分布。
实验结果
研究问题
- RQ1在固定关卡集上训练是否会导致过拟合并对未见关卡泛化差?
- RQ2训练中程序化生成的关卡是否能在生成关卡分布内提升泛化,PPCG 是否能进一步增强?
- RQ3生成器设计和关卡难度进展如何影响向人类设计关卡的迁移?
- RQ4生成的关卡是否近似人类设计关卡的分布,如通过降维和聚类评估?
主要发现
- 在单一关卡上训练的代理在训练关卡上得分很高,但对测试关卡泛化差,表明过拟合。
- 程序化生成的关卡使在训练分布内的未见关卡获得泛化,在某些游戏中,PPCG 通过将难度与代理表现相匹配,进一步帮助学习。
- PPCG 在 Frogs(硬关卡 57% 胜率)和 Zelda 的程序化生成与人工关卡上取得显著改进,而在 Solarfox 与 Boulderdash 中,固定难度的 PCG 在某些设置下可超越 PPCG。
- 向人类设计关卡的泛化不均匀,并高度依赖于关卡生成器设计以及生成器分布与人类设计布局的一致性。
- 降维和聚类揭示生成关卡中的明显簇,一些人类设计关卡作为离群点出现,表明生成与人类设计内容之间存在分布差距。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。