QUICK REVIEW

[论文解读] Supersizing Self-supervision: Learning to Grasp from 50K Tries and 700 Robot Hours

Lerrel Pinto, Abhinav Gupta|arXiv (Cornell University)|Sep 23, 2015

Robot Manipulation and Learning参考文献 12被引用 28

一句话总结

本文提出了一种大规模自监督学习框架，用于机器人抓取，基于Baxter机器人在700小时的运行中收集的50K次试错抓取数据。通过将抓取预测建模为对图像块的18类二分类问题，并采用多阶段课程学习方法，迭代收集困难负样本，该方法在新物体上的抓取成功率达到了66%，显著优于以往使用小规模数据集的工作。

ABSTRACT

Current learning-based robot grasping approaches exploit human-labeled datasets for training the models. However, there are two problems with such a methodology: (a) since each object can be grasped in multiple ways, manually labeling grasp locations is not a trivial task; (b) human labeling is biased by semantics. While there have been attempts to train robots using trial-and-error experiments, the amount of data used in such experiments remains substantially low and hence makes the learner prone to over-fitting. In this paper, we take the leap of increasing the available training data to 40 times more than prior work, leading to a dataset size of 50K data points collected over 700 hours of robot grasping attempts. This allows us to train a Convolutional Neural Network (CNN) for the task of predicting grasp locations without severe overfitting. In our formulation, we recast the regression problem to an 18-way binary classification over image patches. We also present a multi-stage learning approach where a CNN trained in one stage is used to collect hard negatives in subsequent stages. Our experiments clearly show the benefit of using large-scale datasets (and multi-stage training) for the task of grasping. We also compare to several baselines and show state-of-the-art performance on generalization to unseen objects for grasping.

研究动机与目标

为克服人工标注抓取数据集的局限性，这些数据集因语义偏差而受限，且由于每个物体可能存在多个有效抓取点，难以进行彻底的人工标注。
通过使用广泛的试错交互方式，将机器人抓取的数据收集规模扩展至超越以往工作，减少对人工标注数据的依赖。
通过在大规模、自监督收集的数据上训练高容量CNN，提升对未见物体的泛化能力。
探究大规模自监督数据收集是否能够在无需人工标注监督的情况下，实现鲁棒且可泛化的抓取策略。

提出的方法

该方法使用Baxter机器人在700小时内收集了50K次抓取尝试，每次尝试在特定图像块和角度上被标记为成功或失败。
将抓取预测重新定义为18类二分类问题，其中每个输出节点对应一个离散的抓取角度区间，从而实现多角度抓取预测。
采用多阶段学习流程：使用ImageNet预训练的CNN在初始数据上进行微调，随后利用该模型识别困难负样本以用于后续训练阶段。
通过在当前模型上运行推理，选择预测置信度高但实际成功率为低的图像块作为困难负样本，并将其加入训练集。
在每个阶段重新训练模型，采用数据聚合策略，即保留所有历史数据并重新训练，以防止分布漂移并提升鲁棒性。
在真实机器人测试中应用重排序策略：对预测的前10个抓取点使用邻域分析方法重新评分，以提高对执行误差的鲁棒性。

实验结果

研究问题

RQ1从机器人试错实验中大规模自监督收集数据，是否能显著提升机器人抓取在未见物体上的泛化能力？
RQ2结合困难负样本挖掘的多阶段课程学习，是否比随机数据收集或单阶段训练带来更好的性能？
RQ3自监督数据规模（例如50K vs. 1K个样本）如何影响抓取任务中深度学习模型的性能与泛化能力？
RQ4与从零开始训练相比，ImageNet预训练在抓取任务上的性能提升程度如何？
RQ5自监督抓取策略是否能泛化至杂乱环境及真实世界执行误差？

主要发现

在真实机器人测试中，该模型在新出现的、从未见过的物体上实现了66%的成功率，表明其在训练分布之外具有强大的泛化能力。
使用ImageNet预训练时，50K个数据点的测试准确率达到76.9%，而从零开始训练仅为64.6%，显示出预训练带来的显著性能提升。
多阶段学习将准确率从76.9%提升至第一阶段后的79.3%，并在三阶段后稳定在79.5%，表明困难负样本挖掘带来了可测量的性能增益。
数据聚合至关重要：若仅使用当前阶段的数据进行训练，准确率会下降至72.3%，表明保留历史数据可防止性能退化。
该模型能泛化至杂乱环境，在五次试验中，对10种物体混合的场景，平均每次成功清除任务需26次交互。
消融研究证实，增加数据量可带来持续的性能增益，且仅在数据量达到20K后性能增益趋于饱和。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。