[论文解读] Assessing Generalization in Deep Reinforcement Learning
本论文提供可复现的基准测试与协议,用于研究深度强化学习中的泛化,比较原生 A2C/PPO 与关注泛化的方法(EPOpt、RL2)在多样化控制任务中的插值与外推的泛化表现。
Deep reinforcement learning (RL) has achieved breakthrough results on many tasks, but agents often fail to generalize beyond the environment they were trained in. As a result, deep RL algorithms that promote generalization are receiving increasing attention. However, works in this area use a wide variety of tasks and experimental setups for evaluation. The literature lacks a controlled assessment of the merits of different generalization schemes. Our aim is to catalyze community-wide progress on generalization in deep RL. To this end, we present a benchmark and experimental protocol, and conduct a systematic empirical study. Our framework contains a diverse set of environments, our methodology covers both in-distribution and out-of-distribution generalization, and our evaluation includes deep RL algorithms that specifically tackle generalization. Our key finding is that `vanilla' deep RL algorithms generalize better than specialized schemes that were proposed specifically to tackle generalization.
研究动机与目标
- 动机:在深度强化学习中需要一个受控、可复现的泛化基准。
- 引入一组多样化的控制任务环境,具有参数化的动力学变化。
- 在分布内和分布外设定下评估原生与泛化强化学习算法。
- 提供可解释的泛化度量(默认、插值、外推)和基准,以便公平比较。
提出的方法
- 定义固定的 MDP 形式化及环境分布,以研究插值和外推。
- 在六个环境上对六种算法进行基准测试(A2C、PPO、EPOpt-A2C、EPOpt-PPO、RL2-A2C、RL2-PPO),并对参数变动进行受控。
- 使用两种网络架构(FF 和 RC)来研究表征对泛化的影响。
- 在九个训练-测试制度对(D/R/E 训练;D/R/E 测试)下进行训练/测试,标准化回合数。
- 计算三种泛化度量:Default(DD)、Interpolation(RR)和 Extrapolation(DR/DE/RE 的几何均值)。
- 给出包含超参数扫描和多种种子实验的可重复实验协议。
实验结果
研究问题
- RQ1原生深度强化学习代理在未见环境变化(插值)和更极端变化(外推)下的泛化能力如何?
- RQ2在这些基准上,专门的泛化方案(EPOpt、RL2)是否优于原生算法?
- RQ3架构选择(FF 与 RC)如何影响跨任务的泛化性能?
- RQ4在何种条件下鲁棒性/基于适应的泛化具有优势或无法训练?
主要发现
| 算法 | 架构 | 默认 | 插值 | 外推 |
|---|---|---|---|---|
| A2C | FF | 78.14 ± 6.07 | 76.63 ± 1.48 | 63.72 ± 2.08 |
| A2C | RC | 81.25 ± 3.48 | 72.22 ± 2.95 | 60.76 ± 2.80 |
| PPO | FF | 78.22 ± 1.53 | 70.57 ± 6.67 | 48.37 ± 3.21 |
| PPO | RC | 26.51 ± 9.71 | 41.03 ± 6.59 | 21.59 ± 10.08 |
| EPOpt-A2C | FF | 2.46 ± 2.86 | 7.68 ± 2.35 | 0.61 ± 2.35 |
| EPOpt-A2C | RC | 9.91 ± 1.12 | 20.89 ± 1.39 | 5.42 ± 0.24 |
| EPOpt-PPO | FF | 85.40 ± 8.05 | 85.15 ± 6.59 | 59.26 ± 5.81 |
| EPOpt-PPO | RC | 5.51 ± 5.74 | 15.40 ± 3.86 | 9.99 ± 7.39 |
| RL 2 -A2C | RC | 45.79 ± 6.67 | 46.32 ± 4.71 | 33.54 ± 4.64 |
| RL 2 -PPO | RC | 22.22 ± 4.46 | 29.93 ± 8.97 | 21.36 ± 4.41 |
- 在所提出的协议下,原生 A2C 与 PPO 的泛化能力通常优于它们的 EPOpt 和 RL2 对应方法。
- 外推在各任务和算法中普遍比插值得到更困难。
- 在一个环境分布上进行训练可以 提高插值性能,但外推仍然具有挑战性。
- 在某些连续动作任务(如 Hopper、Pendulum、HalfCheetah)上,EPOpt 相对于 PPO 提升了泛化,但并非在所有环境上都普遍适用,也不一定在 A2C 上有效。
- RL2 变体训练困难,在相同资源下通常不及原生基线。
- RC(递归)架构影响 PPO 的性能,且在固定环境设置下可能阻碍训练,凸显了架构与算法之间的交互。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。