QUICK REVIEW

[论文解读] Towards Generalization and Simplicity in Continuous Control

Aravind Rajeswaran, Kendall Lowrey|arXiv (Cornell University)|Mar 8, 2017

Reinforcement Learning in Robotics参考文献 18被引用 26

一句话总结

该论文表明，简单的线性与径向基函数（RBF）策略在标准连续控制基准测试中可实现最先进性能——与深度神经网络相当或更优——同时训练速度最快可达20倍。通过在训练过程中使用多样化的初始状态分布，这些简单策略展现出更优的泛化能力，并能从大规模在线扰动中恢复，从而挑战了复杂架构对于鲁棒控制为必需的假设。

ABSTRACT

This work shows that policies with simple linear and RBF parameterizations can be trained to solve a variety of continuous control tasks, including the OpenAI gym benchmarks. The performance of these trained policies are competitive with state of the art results, obtained with more elaborate parameterizations such as fully connected neural networks. Furthermore, existing training and testing scenarios are shown to be very limited and prone to over-fitting, thus giving rise to only trajectory-centric policies. Training with a diverse initial state distribution is shown to produce more global policies with better generalization. This allows for interactive control scenarios where the system recovers from large on-line perturbations; as shown in the supplementary video.

研究动机与目标

探究线性与RBF函数等简单策略参数化是否可在标准连续控制基准上实现竞争力表现。
评估使用传统、狭窄初始状态分布训练的策略的鲁棒性，此类策略常导致脆弱、以轨迹为中心的行为。
评估通过多样化初始状态训练是否能提升泛化能力，并使策略具备从大规模在线扰动中恢复的能力。
挑战当前认为深度神经网络对解决复杂控制任务必不可少的假设，倡导基于奥卡姆剃刀原则采用更简单的替代方案。
推广交互式评估作为新型、信息丰富的鲁棒性基准，超越标准的回合回报指标。

提出的方法

使用带共轭梯度（CG）预处理的自然策略梯度（NPG）训练策略，以提升样本效率与收敛性。
采用线性与RBF策略参数化，其中RBF通过随机傅里叶特征实现以近似非线性。
通过从更广范围的分布中采样初始状态，引入基准任务的“全局”变体，迫使策略超越特定轨迹进行泛化。
通过在推理过程中注入大规模在线扰动，实施交互式测试，以评估策略的鲁棒性与恢复能力。
与使用信任区域策略优化（TRPO）训练的深度神经网络策略进行对比，采用完全相同的训练与评估协议。
采用有限horizon滚动轨迹估计平均奖励目标，价值函数与优势函数通过自举法计算。

实验结果

研究问题

RQ1线性与RBF策略是否可在标准连续控制基准上实现与深度神经网络相当的性能？
RQ2使用狭窄与多样化初始状态分布进行训练，如何影响策略的泛化能力与鲁棒性？
RQ3复杂策略架构是否对解决基准控制任务具有必要优势，还是简单形式已足够？
RQ4交互式扰动测试是否能揭示标准回合回报指标未能捕捉的鲁棒性局限？
RQ5在连续控制的深度强化学习中，策略复杂度、训练速度与泛化能力之间存在何种权衡？

主要发现

线性与RBF策略在OpenAI Gym连续控制基准上实现最先进性能，涵盖Walker2D与Hopper等任务，性能与深度神经网络相当。
使用多样化初始状态训练的简单策略展现出显著更优的泛化能力，并能从大规模在线扰动中恢复，而使用狭窄初始状态分布训练的策略则无法做到。
通过多样化初始状态训练，得到的策略具备全局能力，可在广泛起始配置下解决问题，而不仅限于特定轨迹。
线性策略的训练速度比深度网络快达20倍，因其参数量级数更少，且性能未受影响。
当训练条件更加多样化时，没有充分证据表明多层神经网络在这些基准上优于简单参数化形式。
交互式测试揭示，标准训练范式产生脆弱策略，在扰动下易失效，凸显了当前评估范式的重大局限。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。