Skip to main content
QUICK REVIEW

[论文解读] One-Shot Visual Imitation Learning via Meta-Learning

Chelsea Finn, Tianhe Yu|arXiv (Cornell University)|Sep 14, 2017
Human Pose and Action Recognition参考文献 27被引用 267
一句话总结

该论文将基于梯度的元学习与模仿学习相结合,使机器人能够从单一视觉演示获取新技能,可扩展到原始像素输入甚至仅视频演示。

ABSTRACT

In order for a robot to be a generalist that can perform a wide range of jobs, it must be able to acquire a wide variety of skills quickly and efficiently in complex unstructured environments. High-capacity models such as deep neural networks can enable a robot to represent complex skills, but learning each skill from scratch then becomes infeasible. In this work, we present a meta-imitation learning method that enables a robot to learn how to learn more efficiently, allowing it to acquire new skills from just a single demonstration. Unlike prior methods for one-shot imitation, our method can scale to raw pixel inputs and requires data from significantly fewer prior tasks for effective learning of new skills. Our experiments on both simulated and real robot platforms demonstrate the ability to learn new tasks, end-to-end, from a single visual demonstration.

研究动机与目标

  • 激发对能快速学习多种技能的通用型机器人需求。
  • 通过跨任务复用经验来提高数据效率。
  • 使从原始视觉输入到端到端学习成为可能,以实现快速适应。
  • 开发一个元学习框架,使单次演示即可实现一次性模仿。
  • 在仿真和物理机器人上展示其在现实世界中的适用性。

提出的方法

  • 将模型无关元学习(MAML)扩展到来自视觉输入的模仿学习。
  • 训练一个策略,使用一次梯度更新并借助一个演示来适应新任务。
  • 引入一个双头架构,其中最终层本质上是一个元学习的内部目标。
  • 引入偏置变换以增强基于梯度的自适应。
  • 对每个任务使用成对的演示进行元训练,以模拟用于适应的训练/验证分割。
  • 可选地通过双头设置学习损失函数,以在没有专家动作的情况下实现自适应。

实验结果

研究问题

  • RQ1从原始像素输入进行的一次性模仿学习是否能够仅通过单个视觉演示来适应未见过的任务?
  • RQ2在数据集规模和输入模态(视觉与非视觉)方面,元模仿学习(MIL)与先前的一次性模仿方法有何比较?
  • RQ3该方法是否能从不包含专家动作的演示中学习(仅视频演示)?
  • RQ4MIL是否能扩展到具有真实图像和物体的现实世界机器人任务?

主要发现

  • 在需要适应新对象和目标的视觉任务中,MIL优于先前的一次性模仿方法。
  • 在带有保留对象的仿真推进任务中,当提供视频+状态+动作输入时,MIL的一次性成功率高达85.81%,超过基线。
  • 在推进任务中,MIL使用仅视频演示实现68.33%的单次成功率。
  • 在真实世界的放置任务中,使用PR2机器人,MIL在单次演示下将持有物放入正确容器的成功率达到90%。
  • 使用仅视频演示的MIL仍然可行(放置任务为68.33%),但从更多数据或模态中获益。
  • 双头和偏置变换的变体提高了基于梯度的自适应的稳定性和性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。