QUICK REVIEW

[论文解读] Real-Time, Highly Accurate Robotic Grasp Detection using Fully Convolutional Neural Networks with High-Resolution Images

Dong-Won Park, Yonghyeok Seo|arXiv (Cornell University)|Sep 16, 2018

Robot Manipulation and Learning参考文献 17被引用 25

一句话总结

本文提出了一种基于全卷积神经网络（FCNN）的方法，利用高分辨率RGB-D图像实现实时、高精度的机器人抓取检测。通过端到端学习和一种新颖的自动视觉-机器人标定技术，该方法在每张360×360图像上实现了6–20ms的推理时间，抓取检测准确率达到96.6%，在新型小型物体上的抓取成功率达到90%。

ABSTRACT

Robotic grasp detection for novel objects is a challenging task, but for the last few years, deep learning based approaches have achieved remarkable performance improvements, up to 96.1% accuracy, with RGB-D data. In this paper, we propose fully convolutional neural network (FCNN) based methods for robotic grasp detection. Our methods also achieved state-of-the-art detection accuracy (up to 96.6%) with state-of- the-art real-time computation time for high-resolution images (6-20ms per 360x360 image) on Cornell dataset. Due to FCNN, our proposed method can be applied to images with any size for detecting multigrasps on multiobjects. Proposed methods were evaluated using 4-axis robot arm with small parallel gripper and RGB-D camera for grasping challenging small, novel objects. With accurate vision-robot coordinate calibration through our proposed learning-based, fully automatic approach, our proposed method yielded 90% success rate.

研究动机与目标

利用高分辨率RGB-D图像实现实时、高精度的机器人抓取检测，适用于新型小型物体。
解决在复杂、杂乱环境中多物体、多抓取场景下的精确且高效的抓取检测挑战。
开发一种完全自动化的基于学习的视觉-机器人坐标系标定方法，以提高系统可靠性并减少人工设置。
在标准基准测试中实现抓取检测在准确率和推理速度方面的最先进性能。

提出的方法

该方法采用全卷积神经网络（FCNN）架构，端到端处理高分辨率RGB-D图像，实现抓取候选的密集预测。
FCNN经过训练，可直接从输入图像预测抓取的可操作性图，包括抓取角度、宽度和质量，无需区域提议网络。
提出一种新颖的基于学习的全自动视觉-机器人坐标系标定方法，以最小的人工干预实现相机与机器人坐标系的对齐。
系统部署于四轴机械臂，配备小型平行夹爪，通过实时推理指导抓取动作。
网络经过优化以实现推理速度，每张360×360图像的推理时间为6–20ms，支持实时运行。
该方法支持任意输入图像尺寸，可同时检测多个物体上的多个抓取。

实验结果

研究问题

RQ1全卷积神经网络是否能在保持实时推理的同时，实现对高分辨率RGB-D图像的高精度抓取检测？
RQ2所提出的自动视觉-机器人标定方法相较于人工标定，如何提升抓取成功率？
RQ3该方法在真实世界环境中对新型、小型且具有挑战性的物体的抓取检测性能如何？
RQ4在多抓取、多物体场景下，FCNN方法在不同物体尺寸和配置下的泛化能力如何？

主要发现

所提出的FCNN方法在Cornell数据集上实现了96.6%的抓取检测准确率，超越了以往最先进水平。
系统实现了6–20ms/张360×360图像的实时推理，延迟极低，支持在机器人系统中的实际部署。
通过所提出的自动视觉-机器人标定方法，机器人在抓取新型小型物体时达到了90%的成功率。
该方法成功实现了对多个物体上多个抓取的同步检测，展示了在复杂场景中的可扩展性和鲁棒性。
FCNN架构实现了无需微调即可在任意图像尺寸上进行推理，显著提升了在真实应用场景中的灵活性。
高分辨率输入与端到端学习的结合显著提升了抓取定位与检测的可靠性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。