QUICK REVIEW

[论文解读] Third-Person Visual Imitation Learning via Decoupled Hierarchical Controller

Pratyusha Sharma, Deepak Pathak|arXiv (Cornell University)|Nov 21, 2019

Robot Manipulation and Learning被引用 28

一句话总结

本文提出了一种用于第三人称视觉模仿学习的解耦分层控制器，其中高层目标生成器从第三人称视频示范中推理出第一人称子目标，而低层控制器则使用原始像素观测执行动作以达成这些目标。该方法在真实世界Baxter机器人上实现了对新物体和未见过配置的鲁棒泛化，且在模仿准确性和样本效率方面均优于端到端基线方法。

ABSTRACT

We study a generalized setup for learning from demonstration to build an agent that can manipulate novel objects in unseen scenarios by looking at only a single video of human demonstration from a third-person perspective. To accomplish this goal, our agent should not only learn to understand the intent of the demonstrated third-person video in its context but also perform the intended task in its environment configuration. Our central insight is to enforce this structure explicitly during learning by decoupling what to achieve (intended task) from how to perform it (controller). We propose a hierarchical setup where a high-level module learns to generate a series of first-person sub-goals conditioned on the third-person video demonstration, and a low-level controller predicts the actions to achieve those sub-goals. Our agent acts from raw image observations without any access to the full state information. We show results on a real robotic platform using Baxter for the manipulation tasks of pouring and placing objects in a box. Project video and code are at https://pathak22.github.io/hierarchical-imitation/

研究动机与目标

使机器人能够仅通过单次第三人称视频示范学习复杂操作任务，且无需访问状态信息。
解决从第三人称视角到第一人称机器人视角的人类动作与目标转换的挑战。
通过将高层目标推理与低层动作控制解耦，提升对新物体和未见配置的泛化能力。
通过在多个任务间共享单一稳健的低层控制器，减少每项任务的数据需求。

提出的方法

高层目标生成器采用基于条件生成对抗网络的U-Net架构，从第三人称人类示范帧和当前机器人观测中预测第一人称视觉子目标。
目标生成器使用配对但时间未对齐的人类视频与机器人轨迹数据，以监督方式训练。
低层逆向控制器使用ResNet-18主干网络（微调ImageNet权重）将预测的子目标与当前机器人观测映射为关节角动作。
通过数据增强（包括随机裁剪和抖动）提升低层控制器的鲁棒性，以应对摄像头和机械臂的振动。
系统从原始像素端到端运行，无需真实状态信息或人工指定目标，完全依赖视频示范。
解耦设计使得低层控制器可在不同任务间共享，提升样本效率并减少过拟合。

实验结果

研究问题

RQ1当仅通过单次第三人称视频示范进行训练时，机器人是否能泛化到新物体和新配置？
RQ2与端到端学习相比，将高层目标生成与低层控制解耦在泛化性能方面有何提升？
RQ3单一低层控制器在不重新训练的情况下，能在多大程度上泛化到多样化的操作任务？
RQ4使用条件生成对抗网络从第三人称示范中生成逼真第一人称子目标的效果如何？
RQ5在无状态信息或时间建模的情况下，系统能否实现稳定、低抖动的轨迹？

主要发现

所提出的解耦分层控制器在真实世界Baxter机器人任务中实现了成功模仿，包括倒液和将物体放入盒子，仅依赖单次第三人称视频示范。
高层目标生成器生成了视觉上合理且语义上有意义的子目标，使低层控制器能够以高精度达到目标状态。
在Sawyer机器人仿真环境中，当泛化到新物体位置时，低层控制器的平均RMSE为6.09（±2.8），表明其具有强大的鲁棒性。
与端到端基线相比，该系统在未见物体配置和新任务上的泛化能力得到提升，尤其在零样本设置下表现更优。
模块化设计实现了样本高效的学学习，因为低层控制器在任务间共享，且每项任务所需数据更少。
消融实验表明，与联合训练相比，解耦结构显著提升了性能与稳定性，尤其在倒液等复杂任务中。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。