QUICK REVIEW
[论文解读] Gotta Learn Fast: A New Benchmark for Generalization in RL
Alex Nichol, Vicki Pfau|arXiv (Cornell University)|Apr 10, 2018
Reinforcement Learning in Robotics参考文献 21被引用 85
一句话总结
引入基于索尼克的强化学习基准(Gym Retro Sonic),包含训练/测试拆分以评估迁移与小样本泛化,以及基线结果。
ABSTRACT
In this report, we present a new reinforcement learning (RL) benchmark based on the Sonic the Hedgehog (TM) video game franchise. This benchmark is intended to measure the performance of transfer learning and few-shot learning algorithms in the RL domain. We also present and evaluate some baseline algorithms on the new benchmark.
研究动机与目标
- 说明需要具备明确训练/测试拆分的强化学习基准,以衡量跨任务的泛化能力。
- 提出一个利于元学习的强化学习数据集,基于多个相似任务(Sonic 关卡)。
- 提供基线算法以评估强化学习中的迁移与小样本学习能力。
提出的方法
- 使用 Gym Retro 构建一个基于 Sonic 的强化学习基准,在 58 个保存的关卡状态之间设置训练/测试拆分。
- 使用帧跳跃和粘性帧跳跃来模拟真实的时序性和随机性。
- 基于水平进展定义奖励,并设置完成奖励以鼓励快速完成。
- 评估多种基线,包括 Rainbow(DQN 变体)、PPO,以及作为迁移/小样本基准的非视觉 JERK 基线。
- 实现联合训练(迁移)设置,在多关卡训练时初始化测试关卡学习。
- 提供逐关卡与总计的详细表现指标以便比较。
实验结果
研究问题
- RQ1在固定分布的索尼克关卡中,强化学习代理在相似任务(关卡)上的泛化能力有多强?
- RQ2与从零开始训练相比,迁移学习和小样本强化学习方法是否能降低未见关卡的样本复杂度?
- RQ3哪些基线迁移策略(联合训练、特征复用)最有效地提升测试表现?
主要发现
| 算法 | 分数 | 最终分数 |
|---|---|---|
| Rainbow | 2748.6 ± 102.2 | 3706.3 ± 192.7 |
| JERK | 1904.0 ± 21.9 | 2306.8 ± 74.0 |
| PPO | 1488.8 ± 42.8 | 1755.1 ± 65.2 |
| PPO (joint) | 3127.9 ± 116.9 | 3926.3 ± 78.1 |
| Rainbow (joint) | 2969.2 ± 170.2 | 3704.2 ± 151.1 |
| Human | 7438.2 ± 624.2 | 7438.2 ± 624.2 |
- 人工玩家在基线中获得最高的聚合测试分数(7438.2 ± 624.2)。
- 联合训练迁移(Joint PPO/Rainbow)通常在测试表现上优于非联合训练基线,Joint PPO 的聚合(测试)为 3926.3 ± 78.1,Joint Rainbow 为 3704.2 ± 151.1。
- 带奖励预处理的 Rainbow 在测试集上的表现优于标准 PPO(Rainbow: 2748.6 ± 102.2 vs PPO: 1488.8 ± 42.8)。
- JERK,一种非深度学习的脚本方法,表现具有竞争力,有时由于结构化探索而超过普通 PPO(1904.0 ± 21.9 总计)。
- 联合 Rainbow 和联合 PPO 表现出从训练到测试关卡的迁移能力,显示出一定的泛化,但最佳迁移仍落后于人工水平。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。