Skip to main content
QUICK REVIEW

[论文解读] Gotta Learn Fast: A New Benchmark for Generalization in RL

Alex Nichol, Vicki Pfau|arXiv (Cornell University)|Apr 10, 2018
Reinforcement Learning in Robotics参考文献 21被引用 85
一句话总结

引入基于索尼克的强化学习基准(Gym Retro Sonic),包含训练/测试拆分以评估迁移与小样本泛化,以及基线结果。

ABSTRACT

In this report, we present a new reinforcement learning (RL) benchmark based on the Sonic the Hedgehog (TM) video game franchise. This benchmark is intended to measure the performance of transfer learning and few-shot learning algorithms in the RL domain. We also present and evaluate some baseline algorithms on the new benchmark.

研究动机与目标

  • 说明需要具备明确训练/测试拆分的强化学习基准,以衡量跨任务的泛化能力。
  • 提出一个利于元学习的强化学习数据集,基于多个相似任务(Sonic 关卡)。
  • 提供基线算法以评估强化学习中的迁移与小样本学习能力。

提出的方法

  • 使用 Gym Retro 构建一个基于 Sonic 的强化学习基准,在 58 个保存的关卡状态之间设置训练/测试拆分。
  • 使用帧跳跃和粘性帧跳跃来模拟真实的时序性和随机性。
  • 基于水平进展定义奖励,并设置完成奖励以鼓励快速完成。
  • 评估多种基线,包括 Rainbow(DQN 变体)、PPO,以及作为迁移/小样本基准的非视觉 JERK 基线。
  • 实现联合训练(迁移)设置,在多关卡训练时初始化测试关卡学习。
  • 提供逐关卡与总计的详细表现指标以便比较。

实验结果

研究问题

  • RQ1在固定分布的索尼克关卡中,强化学习代理在相似任务(关卡)上的泛化能力有多强?
  • RQ2与从零开始训练相比,迁移学习和小样本强化学习方法是否能降低未见关卡的样本复杂度?
  • RQ3哪些基线迁移策略(联合训练、特征复用)最有效地提升测试表现?

主要发现

算法分数最终分数
Rainbow2748.6 ± 102.23706.3 ± 192.7
JERK1904.0 ± 21.92306.8 ± 74.0
PPO1488.8 ± 42.81755.1 ± 65.2
PPO (joint)3127.9 ± 116.93926.3 ± 78.1
Rainbow (joint)2969.2 ± 170.23704.2 ± 151.1
Human7438.2 ± 624.27438.2 ± 624.2
  • 人工玩家在基线中获得最高的聚合测试分数(7438.2 ± 624.2)。
  • 联合训练迁移(Joint PPO/Rainbow)通常在测试表现上优于非联合训练基线,Joint PPO 的聚合(测试)为 3926.3 ± 78.1,Joint Rainbow 为 3704.2 ± 151.1。
  • 带奖励预处理的 Rainbow 在测试集上的表现优于标准 PPO(Rainbow: 2748.6 ± 102.2 vs PPO: 1488.8 ± 42.8)。
  • JERK,一种非深度学习的脚本方法,表现具有竞争力,有时由于结构化探索而超过普通 PPO(1904.0 ± 21.9 总计)。
  • 联合 Rainbow 和联合 PPO 表现出从训练到测试关卡的迁移能力,显示出一定的泛化,但最佳迁移仍落后于人工水平。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。