QUICK REVIEW

[论文解读] Deep Imitation Learning for Complex Manipulation Tasks from Virtual Reality Teleoperation

Tianhao Zhang, Zoe McCarthy|arXiv (Cornell University)|Oct 12, 2017

Robot Manipulation and Learning参考文献 50被引用 54

一句话总结

作者构建了一个消费级VR遥操作系统来收集示范并通过行为克隆训练深度视觉运动策略，在十个真实世界的操控任务中实现高成功率，每个任务数据量不到30分钟。

ABSTRACT

Imitation learning is a powerful paradigm for robot skill acquisition. However, obtaining demonstrations suitable for learning a policy that maps from raw pixels to actions can be challenging. In this paper we describe how consumer-grade Virtual Reality headsets and hand tracking hardware can be used to naturally teleoperate robots to perform complex tasks. We also describe how imitation learning can learn deep neural network policies (mapping from pixels to actions) that can acquire the demonstrated skills. Our experiments showcase the effectiveness of our approach for learning visuomotor skills.

研究动机与目标

展示一个低成本的 VR 遥操作系统，用于收集高质量的机器人操作示范。
学习将像素映射到动作的深度 visuomotor 策略，使用行为克隆。
证明单一神经网络架构在数据有限的情况下能够处理多种操作任务。
分析样本效率以及辅助自监督损失对学习的影响。
探索对未见初始状态和任务变体的泛化。

提出的方法

使用 Vive VR 头戴设备和带轨迹追踪的控制器来以共享的观测和动作空间遥控 PR2 机器人。
将 RGB-D 图像和末端执行器历史作为输入；输出右臂的夹持器指令、角速度和线速度。
采用具有三个模块（视觉、辅助、控制）的神经网络，并使用空间 Soft-ArgMax 从图像中提取特征。
使用行为克隆损失进行训练，该损失包含 L2、L1、方向对齐损失，以及夹持器开启/关闭损失和辅助损失。
引入自监督的辅助任务（预测当前和最终的夹持器姿态，以及其他与任务相关的信号）以提升数据效率。
使用固定超参数集合，通过随机梯度下降/Adam 进行优化。

实验结果

研究问题

RQ1廉价的 VR 遥操作能否收集适用于从像素学习视觉-运动策略的示范？
RQ2学习多样化操作任务的有效策略所需的数据效率（示范时间）是多少？
RQ3辅助自监督损失是否在现实世界的机器人操作中提高数据效率？
RQ4策略对未见初始状态和任务变体的泛化能力如何？

主要发现

VR 演示使一系列现实世界任务的深度视觉-运动策略实现了高性能。
大多数任务在每个任务不到 30 分钟的演示下就取得了高成功率。
通过VR收集的示范提供了足够的自然变异性以用于学习。
辅助预测损失提高了现实世界操作中的数据效率。
策略对未见初始状态和外推场景表现出泛化能力。
该方法能够处理长时程、多阶段任务以及复杂接触密集的操作。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。