[论文解读] Investigating Generalisation in Continuous Deep Reinforcement Learning
本文分析深度强化学习代理在连续控制中的噪声与域转移下的泛化能力,结果表明训练性能往往无法预测测试泛化,并且需要对泛化进行基准测试。
Deep Reinforcement Learning has shown great success in a variety of control tasks. However, it is unclear how close we are to the vision of putting Deep RL into practice to solve real world problems. In particular, common practice in the field is to train policies on largely deterministic simulators and to evaluate algorithms through training performance alone, without a train/test distinction to ensure models generalise and are not overfitted. Moreover, it is not standard practice to check for generalisation under domain shift, although robustness to such system change between training and testing would be necessary for real-world Deep RL control, for example, in robotics. In this paper we study these issues by first characterising the sources of uncertainty that provide generalisation challenges in Deep RL. We then provide a new benchmark and thorough empirical evaluation of generalisation challenges for state of the art Deep RL methods. In particular, we show that, if generalisation is the goal, then common practice of evaluating algorithms based on their training performance leads to the wrong conclusions about algorithm choice. Finally, we evaluate several techniques for improving generalisation and draw conclusions about the most robust techniques to date.
研究动机与目标
- 描述在连续Deep RL中导致泛化挑战的不确定性与变异性的来源。
- 开发一个泛化基准测试,在种子和域转移上具备训练/测试划分。
- 在 OpenAI Gym MuJoCo 任务上评估最先进的深度强化学习方法与提出的泛化技术。
- 评估训练性能是否能可靠指示泛化,并识别鲁棒的方法。
提出的方法
- 在环境参数和噪声的分布下形式化RL泛化(域转移)。
- 提出一个泛化基准测试,在种子、噪声尺度和环境参数变化上具有训练/测试划分。
- 评估无策略梯度方法(TRPO、PPO、DDPG)及其变体(熵正则化、SCN、对抗学习、多域学习)。
- 引入评估指标,包括测试回报、期望测试回报,以及噪声/域转移尺度上的AUC。
- 分析在噪声或多域训练下如何影响测试泛化。
实验结果
研究问题
- RQ1最先进的连续控制RL方法如何在观测、动作和环境噪声下实现泛化?
- RQ2在训练与测试之间环境参数的域转移如何影响策略性能?
- RQ3简单的训练时修改(噪声、网络结构修改、域随机化)是否能提升对泛化挑战的鲁棒性?
- RQ4训练性能是否能可靠地预测深度RL中的测试泛化?
- RQ5哪些训练策略能在多样化任务和噪声类型上提供最鲁棒的泛化?
主要发现
- 标准的连续控制策略在噪声和域转移下表现出较差的泛化能力,随着噪声或参数偏移的增加,性能下降。
- 在确定性环境中的训练性能并不能预测测试泛化;在许多情况下,训练回报与测试泛化之间存在负相关。
- 在噪声或多域暴露下进行训练可能提高某些任务和某些噪声类型的泛化,但在不同环境中的效果不一致。
- 较小的网络或熵正则化的PPO(PPO-Ent)通常比原始PPO更能提高泛化;结果随任务和噪声类型而异。
- 跨任务没有一种算法在泛化方面始终优于其他算法,凸显了需要专门的泛化基准测试。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。