Skip to main content
QUICK REVIEW

[论文解读] One-Shot Imitation from Observing Humans via Domain-Adaptive Meta-Learning

Tianhe Yu, Chelsea Finn|arXiv (Cornell University)|Feb 5, 2018
Robot Manipulation and Learning参考文献 56被引用 111
一句话总结

本论文提出了一种域自适应元学习方法,使机器人能够仅从人类的一段视频中模仿新任务,结合跨任务的先前人类和机器人演示。

ABSTRACT

Humans and animals are capable of learning a new behavior by observing others perform the skill just once. We consider the problem of allowing a robot to do the same -- learning from a raw video pixels of a human, even when there is substantial domain shift in the perspective, environment, and embodiment between the robot and the observed human. Prior approaches to this problem have hand-specified how human and robot actions correspond and often relied on explicit human pose detection systems. In this work, we present an approach for one-shot learning from a video of a human by using human and robot demonstration data from a variety of previous tasks to build up prior knowledge through meta-learning. Then, combining this prior knowledge and only a single video demonstration from a human, the robot can perform the task that the human demonstrated. We show experiments on both a PR2 arm and a Sawyer arm, demonstrating that after meta-learning, the robot can learn to place, push, and pick-and-place new objects using just one video of a human performing the manipulation.

研究动机与目标

  • 在人体与机器人之间存在域差异的情况下,开发从原始人类视频进行一次性模仿的方法。
  • 利用跨任务的先前人类和机器人演示的元学习,以获得可转移的策略先验。
  • 实现仅用一个人类示范且无需该新任务的机器人数据就能对新任务进行快速适应。

提出的方法

  • 扩展 MAML 以处理域移位并在没有人类动作的人类视频中进行学习。
  • 在跨任务的成对人类与机器人演示上进行元训练,以学习初始化和一个学习到的自适应损失 L_ψ。
  • 使用一维时序卷积来处理视频中的技巧,学习时序自适应目标 L_ψ,并指导梯度更新。
  • 使用将 RGB 输入映射到动作分布的策略,通过空间软最大估计进行感知,并对动作采用混合密度。
  • 在元测试阶段,使用一个人类示范从学习到的初始化进行自适应,以产生机器人动作。
  • 提供一个概率解释,将自适应框定为带有学习能量项的 MAP 推断。

实验结果

研究问题

  • RQ1所提出的域自适应元学习是否能够使机器人在跨越物体和场景变异的情况下,仅从单个人人类视频模仿新任务?
  • RQ2该方法是否对训练中未看到的不同视角、背景和示范者具广泛泛化?
  • RQ3时序自适应目标与逐时步损失在利用视频信息方面的比较?
  • RQ4该方法是否可在不同的机器人平台和演示类型(动觉引导/远程操作)之间迁移?

主要发现

  • 在具有人工与机器人数据的元训练后,对新物体和新任务实现鲁棒的一次性模仿。
  • 时序自适应目标显著优于线性逐时步损失,能够更好地从视频演示中学习。
  • 在PR2上,DAML时序损失的放置/推送/拣放成功率分别为 93.8%、88.9%、80.0%。
  • 基线 DA-LSTM 和情境策略在演示样本有限的情况下难以实现良好性能,凸显所提出时序损失的数据效率。
  • 该方法在较大域移位下仍然有效,包括不同的摄像机视角和背景,尽管背景变化可能降低性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。