Skip to main content
QUICK REVIEW

[论文解读] Robotic Grasp Detection using Deep Convolutional Neural Networks

Sulabh Kumra, Christopher Kanan|arXiv (Cornell University)|Nov 24, 2016
Robot Manipulation and Learning参考文献 31被引用 30
一句话总结

该论文提出了一种多模态深度卷积神经网络(DCNN),利用RGB图像和深度图像实现实时检测平行夹爪机械臂的最优抓取姿态。通过融合两个50层残差网络(一个处理RGB图像,一个处理深度图像)的特征,该模型在Cornell抓取数据集上实现了89.21%的准确率,超越了先前的最先进方法,同时运行速度达到9.71 fps。

ABSTRACT

Deep learning has significantly advanced computer vision and natural language processing. While there have been some successes in robotics using deep learning, it has not been widely adopted. In this paper, we present a novel robotic grasp detection system that predicts the best grasping pose of a parallel-plate robotic gripper for novel objects using the RGB-D image of the scene. The proposed model uses a deep convolutional neural network to extract features from the scene and then uses a shallow convolutional neural network to predict the grasp configuration for the object of interest. Our multi-modal model achieved an accuracy of 89.21% on the standard Cornell Grasp Dataset and runs at real-time speeds. This redefines the state-of-the-art for robotic grasp detection.

研究动机与目标

  • 开发一种实时机器人抓取检测系统,利用RGB-D图像预测新物体的最优抓取姿态。
  • 通过利用深度残差网络和多模态输入(RGB与深度),改进现有抓取检测方法。
  • 在Cornell抓取数据集上,实现比先前最先进方法更高的准确率和更快的推理速度。
  • 在不同数据划分下,评估单模态(仅RGB)和多模态(RGB-D)模型的性能。
  • 探索通过修改二元输出头,将模型用于抓取可行性预测的可行性。

提出的方法

  • 使用两个在ImageNet上预训练的50层深度残差神经网络(ResNet-50),分别处理RGB图像和深度图。
  • 通过特征图拼接的方式,将两个网络的特征融合,形成场景的联合表征。
  • 将融合后的特征输入浅层卷积网络,以预测五维抓取配置:(x, y, θ, width, score)。
  • 通过使用ImageNet预训练权重初始化网络,采用迁移学习以提升在有限抓取数据上的特征学习能力。
  • 将最后一层修改为带有Softmax激活函数的二元全连接层,用于预测抓取可行性(可抓取 vs. 不可抓取),准确率达到93.4%。
  • 采用图像级和物体级数据划分方式训练和评估模型,以评估其对未见物体的泛化能力。

实验结果

研究问题

  • RQ1基于RGB和深度输入的深度多模态DCNN架构是否能在机器人抓取检测准确率上超越现有最先进方法?
  • RQ2与仅使用RGB的模型相比,引入深度数据对抓取检测性能有何影响?
  • RQ3与浅层网络结构相比,更深的残差网络结合跳跃连接在抓取特征学习方面提升了多少?
  • RQ4该模型能否在训练中未见过的新物体上实现良好泛化,特别是在物体级数据划分下?
  • RQ5通过修改输出层,能否使模型以高准确率实现抓取可行性预测(二分类)?

主要发现

  • 所提出的多模态DCNN在Cornell抓取数据集上实现了89.21%的准确率,相较于先前工作在图像级划分下提升了14.94%,在物体级划分下提升了13.36%。
  • 该模型运行速度达到9.71帧每秒,显著快于先前方法(如Lenz等人:0.02 fps,Redmon等人:3.31 fps),实现了真正的实时抓取检测。
  • 多模态模型优于单模态RGB-only模型,尤其在物体级划分下表现更优,证明了深度信息在泛化能力上的价值。
  • 经修改的抓取可行性预测头实现了93.4%的准确率,与当前抓取可行性分类的最先进水平相当。
  • 可视化对比(图9)显示,当单模态模型在缺乏深度线索或复杂物体姿态下失败时,多模态模型仍能检测到可行的抓取姿态。
  • 误检(假阴性)主要发生在深度特征模糊时(如拖鞋鞋带)或方向预测错误时,表明模型在深度感知和旋转泛化方面仍存在局限。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。