QUICK REVIEW

[论文解读] Assessing Generalization in Deep Reinforcement Learning

Charles Packer, Katelyn Gao|arXiv (Cornell University)|Oct 29, 2018

Reinforcement Learning in Robotics参考文献 42被引用 114

一句话总结

本论文提供可复现的基准测试与协议，用于研究深度强化学习中的泛化，比较原生 A2C/PPO 与关注泛化的方法（EPOpt、RL2）在多样化控制任务中的插值与外推的泛化表现。

ABSTRACT

Deep reinforcement learning (RL) has achieved breakthrough results on many tasks, but agents often fail to generalize beyond the environment they were trained in. As a result, deep RL algorithms that promote generalization are receiving increasing attention. However, works in this area use a wide variety of tasks and experimental setups for evaluation. The literature lacks a controlled assessment of the merits of different generalization schemes. Our aim is to catalyze community-wide progress on generalization in deep RL. To this end, we present a benchmark and experimental protocol, and conduct a systematic empirical study. Our framework contains a diverse set of environments, our methodology covers both in-distribution and out-of-distribution generalization, and our evaluation includes deep RL algorithms that specifically tackle generalization. Our key finding is that `vanilla' deep RL algorithms generalize better than specialized schemes that were proposed specifically to tackle generalization.

研究动机与目标

动机：在深度强化学习中需要一个受控、可复现的泛化基准。
引入一组多样化的控制任务环境，具有参数化的动力学变化。
在分布内和分布外设定下评估原生与泛化强化学习算法。
提供可解释的泛化度量（默认、插值、外推）和基准，以便公平比较。

提出的方法

定义固定的 MDP 形式化及环境分布，以研究插值和外推。
在六个环境上对六种算法进行基准测试（A2C、PPO、EPOpt-A2C、EPOpt-PPO、RL2-A2C、RL2-PPO），并对参数变动进行受控。
使用两种网络架构（FF 和 RC）来研究表征对泛化的影响。
在九个训练-测试制度对（D/R/E 训练；D/R/E 测试）下进行训练/测试，标准化回合数。
计算三种泛化度量：Default（DD）、Interpolation（RR）和 Extrapolation（DR/DE/RE 的几何均值）。
给出包含超参数扫描和多种种子实验的可重复实验协议。

实验结果

研究问题

RQ1原生深度强化学习代理在未见环境变化（插值）和更极端变化（外推）下的泛化能力如何？
RQ2在这些基准上，专门的泛化方案（EPOpt、RL2）是否优于原生算法？
RQ3架构选择（FF 与 RC）如何影响跨任务的泛化性能？
RQ4在何种条件下鲁棒性/基于适应的泛化具有优势或无法训练？

主要发现

算法	架构	默认	插值	外推
A2C	FF	78.14 ± 6.07	76.63 ± 1.48	63.72 ± 2.08
A2C	RC	81.25 ± 3.48	72.22 ± 2.95	60.76 ± 2.80
PPO	FF	78.22 ± 1.53	70.57 ± 6.67	48.37 ± 3.21
PPO	RC	26.51 ± 9.71	41.03 ± 6.59	21.59 ± 10.08
EPOpt-A2C	FF	2.46 ± 2.86	7.68 ± 2.35	0.61 ± 2.35
EPOpt-A2C	RC	9.91 ± 1.12	20.89 ± 1.39	5.42 ± 0.24
EPOpt-PPO	FF	85.40 ± 8.05	85.15 ± 6.59	59.26 ± 5.81
EPOpt-PPO	RC	5.51 ± 5.74	15.40 ± 3.86	9.99 ± 7.39
RL 2 -A2C	RC	45.79 ± 6.67	46.32 ± 4.71	33.54 ± 4.64
RL 2 -PPO	RC	22.22 ± 4.46	29.93 ± 8.97	21.36 ± 4.41

在所提出的协议下，原生 A2C 与 PPO 的泛化能力通常优于它们的 EPOpt 和 RL2 对应方法。
外推在各任务和算法中普遍比插值得到更困难。
在一个环境分布上进行训练可以提高插值性能，但外推仍然具有挑战性。
在某些连续动作任务（如 Hopper、Pendulum、HalfCheetah）上，EPOpt 相对于 PPO 提升了泛化，但并非在所有环境上都普遍适用，也不一定在 A2C 上有效。
RL2 变体训练困难，在相同资源下通常不及原生基线。
RC（递归）架构影响 PPO 的性能，且在固定环境设置下可能阻碍训练，凸显了架构与算法之间的交互。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。