QUICK REVIEW

[论文解读] Multiple Interactions Made Easy (MIME): Large Scale Demonstrations Data for Imitation

Pratyusha Sharma, Lekha Mohan|arXiv (Cornell University)|Oct 16, 2018

Robot Manipulation and Learning被引用 36

一句话总结

该论文介绍了MIME，一个大规模机器人示范数据集，包含20种多样化操作任务中的8,260对人类-机器人示范，涵盖从推动到堆叠等任务。该研究提出一种基于LSTM的视觉模仿框架，将第三人称视角视频特征映射为机器人关节轨迹，通过使用多条真实轨迹进行评估，相较于基线方法性能更优，多模态评估下均方误差降低至0.1076。

ABSTRACT

In recent years, we have seen an emergence of data-driven approaches in robotics. However, most existing efforts and datasets are either in simulation or focus on a single task in isolation such as grasping, pushing or poking. In order to make progress and capture the space of manipulation, we would need to collect a large-scale dataset of diverse tasks such as pouring, opening bottles, stacking objects etc. But how does one collect such a dataset? In this paper, we present the largest available robotic-demonstration dataset (MIME) that contains 8260 human-robot demonstrations over 20 different robotic tasks (https://sites.google.com/view/mimedataset). These tasks range from the simple task of pushing objects to the difficult task of stacking household objects. Our dataset consists of videos of human demonstrations and kinesthetic trajectories of robot demonstrations. We also propose to use this dataset for the task of mapping 3rd person video features to robot trajectories. Furthermore, we present two different approaches using this dataset and evaluate the predicted robot trajectories against ground-truth trajectories. We hope our dataset inspires research in multiple areas including visual imitation, trajectory prediction, and multi-task robotic learning.

研究动机与目标

为解决缺乏大规模、多样化机器人示范数据集，以捕捉复杂、多任务操作的问题。
通过提供20项任务中多样化的现实世界人类与机器人轨迹，推动机器人领域数据驱动学习。
开发并评估一种将第三人称视角视频示范映射为机器人关节轨迹的视觉模仿模型。
通过使用多条真实轨迹进行评估，处理轨迹的多模态性，减少对有效但不完全相同的解决方案的过度惩罚。
展示MIME在复杂、真实世界操作场景中训练和评估视觉模仿模型的实用性。

提出的方法

使用动力学示范法收集8,260对人类-机器人示范，并同步记录人类动作的第三人称视角视频。
使用VGG特征编码视觉示范，并将这些特征按顺序输入LSTM模型，以预测机器人关节轨迹。
使用机器人初始构型图像的VGG特征初始化LSTM的隐藏状态和细胞状态。
通过预测的关节簇编号与真实轨迹之间的交叉熵损失进行模型训练。
使用预测轨迹与真实轨迹之间的均方误差（MSE）评估性能，并通过在多条真实轨迹中取最小MSE来考虑多模态性。
实现基线方法，包括平均轨迹和k近邻（k=11）方法，用于对比。

实验结果

研究问题

RQ1大规模、多样化的机器人示范数据集是否能提升复杂操作任务中的视觉模仿学习性能？
RQ2当单个任务存在多个有效机器人轨迹时，多模态轨迹预测如何影响评估准确性？
RQ3在使用MIME数据集进行视觉模仿学习时，增加训练数据在多大程度上能提升性能？
RQ4所提出的基于LSTM的视频到轨迹模型与平均轨迹和k-NN等简单基线方法相比表现如何？
RQ5第三人称视角视频中的视觉特征能否被有效映射为多样化操作任务中的机器人关节角度？

主要发现

MIME数据集包含20种多样化操作任务中的8,260对人类-机器人示范，涵盖从简单推动到复杂堆叠的任务。
所提出的使用LSTM和VGG特征的视觉模仿模型，在使用多条真实轨迹进行评估时，于保留测试集上实现了0.1076的均方误差（MSE）。
通过在多条真实轨迹中取最小MSE，MSE从0.1296降低至0.1076，证明了多模态评估的重要性。
行为克隆模型优于平均轨迹和k-NN基线方法，且随着训练数据增加，性能稳步提升。
多模态性更高的任务（如将物体放入盒子中）的MSE更高（0.1403），表明轨迹预测更具挑战性。
k=11的k-NN基线方法表现优于平均轨迹方法，但仍逊于行为克隆模型，凸显端到端学习的优势。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。