QUICK REVIEW

[论文解读] Universal Planning Networks

Aravind Srinivas, Allan Jabri|arXiv (Cornell University)|Apr 2, 2018

Reinforcement Learning in Robotics参考文献 51被引用 92

一句话总结

UPNs 在一个目标条件策略中嵌入一个可微分的梯度下降规划器，学习可规划的潜在表征，从而提升规划、迁移与对视觉运动任务的奖励设计。该方法支持基于图像的目标指定以及跨形态的迁移，潜在空间可用于强化学习奖励。

ABSTRACT

A key challenge in complex visuomotor control is learning abstract representations that are effective for specifying goals, planning, and generalization. To this end, we introduce universal planning networks (UPN). UPNs embed differentiable planning within a goal-directed policy. This planning computation unrolls a forward model in a latent space and infers an optimal action plan through gradient descent trajectory optimization. The plan-by-gradient-descent process and its underlying representations are learned end-to-end to directly optimize a supervised imitation learning objective. We find that the representations learned are not only effective for goal-directed visual imitation via gradient-based trajectory optimization, but can also provide a metric for specifying goals using images. The learned representations can be leveraged to specify distance-based rewards to reach new target states for model-free reinforcement learning, resulting in substantially more effective learning when solving new tasks described via image-based goals. We were able to achieve successful transfer of visuomotor planning strategies across robots with significantly different morphologies and actuation capabilities.

研究动机与目标

学习对视觉输入有利于目标导向的规划与控制的表征。
在神经策略中嵌入一个可微分的梯度下降规划器并端到端训练。
证明所学习的潜在表征支持基于图像的目标指定以及跨形态的迁移。
显示潜在空间可以为新任务的无模型强化学习提供基于距离的奖励。

提出的方法

通过 f_phi 将当前观测和目标观测编码到潜在空间，并用前向模型 g_theta 进行状态转移模拟。
在潜在空间中使用梯度下降规划器（GDP）生成使编码目标距离最小化的动作序列。
将规划梯度反向传播 through 完整的规划计算图以更新 phi 和 theta。
使用外部模仿学习目标来匹配专家演示进行训练（算法 2）。
在测试时可选地使用 MPC 风格的重新规划来处理更长的时域。
证明潜在空间奖励 r(o_t,o_g) = -||f_phi(o_t)-f_phi(o_g)||^2，使用 Huber 损失并进行 RL 微调。

实验结果

研究问题

RQ1在策略中嵌入梯度下降规划器是否比基于像素的反应式或自回归基线获得更好的视觉-运动模仿？
RQ2所学习的潜在空间是否能够通过基于图像的目标实现对不同机器人形态和更复杂任务的迁移？
RQ3测试时的规划更新是否能提升性能并接近专家水平？
RQ4所学习的表征是否有助于在新任务中为无模型 RL 定义基于距离的奖励？

主要发现

特征空间	固定	变化
RIL-RL	0%	0.01%
AIL-RL	0%	4.72%
VAE-RL	20.23%	24.67%
UPN-160 Imitation	45.82%	47.99%
Expert	46.77%	51.1 %
UPN-RL	69.84%	71.12%

UPN 在数据受限的情形下，比传统的模仿学习者更高效地学习有效的视觉目标导向策略。
潜在表征提供了一个有意义、能感知障碍的距离度量，对于迁移和奖励设计有用。
允许在测试时进行更多的 GDP 更新可提升规划性能，并在足够的演示下达到专家水平。
由 UPN 表征推导的潜在空间奖励使得强化学习在迁移任务上优于其他特征空间（VAE、RIL、AIL）。
在一种形态上训练的 UPN 表征可以提升在未见形态上的强化学习性能，甚至在更复杂的任务上。
在某些迁移设置中，使用基于 UPN 的奖励的强化学习往往超越专家表现。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。