[论文解读] Supersizing Self-supervision: Learning to Grasp from 50K Tries and 700 Robot Hours
本文提出了一种大规模自监督学习框架,用于机器人抓取,基于Baxter机器人在700小时的运行中收集的50K次试错抓取数据。通过将抓取预测建模为对图像块的18类二分类问题,并采用多阶段课程学习方法,迭代收集困难负样本,该方法在新物体上的抓取成功率达到了66%,显著优于以往使用小规模数据集的工作。
Current learning-based robot grasping approaches exploit human-labeled datasets for training the models. However, there are two problems with such a methodology: (a) since each object can be grasped in multiple ways, manually labeling grasp locations is not a trivial task; (b) human labeling is biased by semantics. While there have been attempts to train robots using trial-and-error experiments, the amount of data used in such experiments remains substantially low and hence makes the learner prone to over-fitting. In this paper, we take the leap of increasing the available training data to 40 times more than prior work, leading to a dataset size of 50K data points collected over 700 hours of robot grasping attempts. This allows us to train a Convolutional Neural Network (CNN) for the task of predicting grasp locations without severe overfitting. In our formulation, we recast the regression problem to an 18-way binary classification over image patches. We also present a multi-stage learning approach where a CNN trained in one stage is used to collect hard negatives in subsequent stages. Our experiments clearly show the benefit of using large-scale datasets (and multi-stage training) for the task of grasping. We also compare to several baselines and show state-of-the-art performance on generalization to unseen objects for grasping.
研究动机与目标
- 为克服人工标注抓取数据集的局限性,这些数据集因语义偏差而受限,且由于每个物体可能存在多个有效抓取点,难以进行彻底的人工标注。
- 通过使用广泛的试错交互方式,将机器人抓取的数据收集规模扩展至超越以往工作,减少对人工标注数据的依赖。
- 通过在大规模、自监督收集的数据上训练高容量CNN,提升对未见物体的泛化能力。
- 探究大规模自监督数据收集是否能够在无需人工标注监督的情况下,实现鲁棒且可泛化的抓取策略。
提出的方法
- 该方法使用Baxter机器人在700小时内收集了50K次抓取尝试,每次尝试在特定图像块和角度上被标记为成功或失败。
- 将抓取预测重新定义为18类二分类问题,其中每个输出节点对应一个离散的抓取角度区间,从而实现多角度抓取预测。
- 采用多阶段学习流程:使用ImageNet预训练的CNN在初始数据上进行微调,随后利用该模型识别困难负样本以用于后续训练阶段。
- 通过在当前模型上运行推理,选择预测置信度高但实际成功率为低的图像块作为困难负样本,并将其加入训练集。
- 在每个阶段重新训练模型,采用数据聚合策略,即保留所有历史数据并重新训练,以防止分布漂移并提升鲁棒性。
- 在真实机器人测试中应用重排序策略:对预测的前10个抓取点使用邻域分析方法重新评分,以提高对执行误差的鲁棒性。
实验结果
研究问题
- RQ1从机器人试错实验中大规模自监督收集数据,是否能显著提升机器人抓取在未见物体上的泛化能力?
- RQ2结合困难负样本挖掘的多阶段课程学习,是否比随机数据收集或单阶段训练带来更好的性能?
- RQ3自监督数据规模(例如50K vs. 1K个样本)如何影响抓取任务中深度学习模型的性能与泛化能力?
- RQ4与从零开始训练相比,ImageNet预训练在抓取任务上的性能提升程度如何?
- RQ5自监督抓取策略是否能泛化至杂乱环境及真实世界执行误差?
主要发现
- 在真实机器人测试中,该模型在新出现的、从未见过的物体上实现了66%的成功率,表明其在训练分布之外具有强大的泛化能力。
- 使用ImageNet预训练时,50K个数据点的测试准确率达到76.9%,而从零开始训练仅为64.6%,显示出预训练带来的显著性能提升。
- 多阶段学习将准确率从76.9%提升至第一阶段后的79.3%,并在三阶段后稳定在79.5%,表明困难负样本挖掘带来了可测量的性能增益。
- 数据聚合至关重要:若仅使用当前阶段的数据进行训练,准确率会下降至72.3%,表明保留历史数据可防止性能退化。
- 该模型能泛化至杂乱环境,在五次试验中,对10种物体混合的场景,平均每次成功清除任务需26次交互。
- 消融研究证实,增加数据量可带来持续的性能增益,且仅在数据量达到20K后性能增益趋于饱和。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。