QUICK REVIEW

[论文解读] Gotta Learn Fast: A New Benchmark for Generalization in RL

Alex Nichol, Vicki Pfau|arXiv (Cornell University)|Apr 10, 2018

Reinforcement Learning in Robotics参考文献 21被引用 85

一句话总结

引入基于索尼克的强化学习基准（Gym Retro Sonic），包含训练/测试拆分以评估迁移与小样本泛化，以及基线结果。

ABSTRACT

In this report, we present a new reinforcement learning (RL) benchmark based on the Sonic the Hedgehog (TM) video game franchise. This benchmark is intended to measure the performance of transfer learning and few-shot learning algorithms in the RL domain. We also present and evaluate some baseline algorithms on the new benchmark.

研究动机与目标

说明需要具备明确训练/测试拆分的强化学习基准，以衡量跨任务的泛化能力。
提出一个利于元学习的强化学习数据集，基于多个相似任务（Sonic 关卡）。
提供基线算法以评估强化学习中的迁移与小样本学习能力。

提出的方法

使用 Gym Retro 构建一个基于 Sonic 的强化学习基准，在 58 个保存的关卡状态之间设置训练/测试拆分。
使用帧跳跃和粘性帧跳跃来模拟真实的时序性和随机性。
基于水平进展定义奖励，并设置完成奖励以鼓励快速完成。
评估多种基线，包括 Rainbow（DQN 变体）、PPO，以及作为迁移/小样本基准的非视觉 JERK 基线。
实现联合训练（迁移）设置，在多关卡训练时初始化测试关卡学习。
提供逐关卡与总计的详细表现指标以便比较。

实验结果

研究问题

RQ1在固定分布的索尼克关卡中，强化学习代理在相似任务（关卡）上的泛化能力有多强？
RQ2与从零开始训练相比，迁移学习和小样本强化学习方法是否能降低未见关卡的样本复杂度？
RQ3哪些基线迁移策略（联合训练、特征复用）最有效地提升测试表现？

主要发现

算法	分数	最终分数
Rainbow	2748.6 ± 102.2	3706.3 ± 192.7
JERK	1904.0 ± 21.9	2306.8 ± 74.0
PPO	1488.8 ± 42.8	1755.1 ± 65.2
PPO (joint)	3127.9 ± 116.9	3926.3 ± 78.1
Rainbow (joint)	2969.2 ± 170.2	3704.2 ± 151.1
Human	7438.2 ± 624.2	7438.2 ± 624.2

人工玩家在基线中获得最高的聚合测试分数（7438.2 ± 624.2）。
联合训练迁移（Joint PPO/Rainbow）通常在测试表现上优于非联合训练基线，Joint PPO 的聚合（测试）为 3926.3 ± 78.1，Joint Rainbow 为 3704.2 ± 151.1。
带奖励预处理的 Rainbow 在测试集上的表现优于标准 PPO（Rainbow: 2748.6 ± 102.2 vs PPO: 1488.8 ± 42.8）。
JERK，一种非深度学习的脚本方法，表现具有竞争力，有时由于结构化探索而超过普通 PPO（1904.0 ± 21.9 总计）。
联合 Rainbow 和联合 PPO 表现出从训练到测试关卡的迁移能力，显示出一定的泛化，但最佳迁移仍落后于人工水平。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。