QUICK REVIEW

[論文レビュー] RoI-based Robotic Grasp Detection in Object Overlapping Scenes Using Convolutional Neural Network.

Hanbo Zhang, Xuguang Lan|arXiv (Cornell University)|Aug 30, 2018

Robot Manipulation and Learning参考文献 16被引用数 13

ひとこと要約

本論文は、重なっている複数の物体が存在するシーンにおけるロボットグリップ検出のため、領域の注目（RoI）に基づく畳み込みニューラルネットワーク（CNN）手法を提案する。本手法は、ターゲットとそのグリップを同時に検出することで、複雑なシーンにおけるグリップ検出性能を向上させる。本手法は、新たに作成されたマルチオブジェクトグリップデータセットで1 FPPIあたり24.0%のミス率、70.5%のmAPを達成し、実世界のロボット実験では84%のグリップ成功率を示した。

ABSTRACT

Grasp detection is an essential skill for widespread use of robots. Recent works demonstrate the advanced performance of Convolutional Neural Network (CNN) on robotic grasp detection. However, a significant shortcoming of existing grasp detection algorithms is that they all ignore the affiliation between grasps and targets. In this paper, we propose a robotic grasp detection algorithm based on Region of Interest (RoI) to simultaneously detect targets and their grasps in object overlapping scenes. Our proposed algorithm uses Regions of Interest (RoIs) to detect grasps while doing classification and location regression of targets. To train the network, we contribute a much bigger multi-object grasp dataset than Cornell Grasp Dataset, which is based on Visual Manipulation Relationship Dataset. Experimental results demonstrate that our algorithm achieves 24.0% miss rate at 1FPPI and 70.5% mAP with grasp on our dataset. Robotic experiments demonstrate that our proposed algorithm can help robots grasp specified target in multi-object scenes at 84% success rate.

研究の動機と目的

既存のグリップ検出手法が、グリップとそのターゲットオブジェクトとの関係を無視するという制限を解消すること。
複雑で重なっている複数オブジェクトのシーンにおけるロボットグリップ検出性能を向上させること。
RoIを用いて、ターゲットとその対応するグリップを同時に検出する統合フレームワークを開発すること。
Visual Manipulation Relationship Datasetに基づいて、より大規模かつ多様なマルチオブジェクトグリップデータセットを構築・公開すること。

提案手法

本手法は、領域の注目（RoI）領域を用いて、同時にターゲット分類、ターゲット位置の回帰、およびグリップ検出を実行する。
エンドツーエンドで学習可能なCNNベースのアーキテクチャを用い、各RoI内でグリップ候補、ターゲットクラス、バウンディングボックスを予測する。
ネットワークは、コーンルールグリップデータセットよりも大幅に大きな新しいマルチオブジェクトグリップデータセットで学習される。
本手法は、各RoI内でグリップ検出を回帰タスクとして統合することで、ターゲット検出とグリップ予測の共同最適化を可能にする。
学習データはVisual Manipulation Relationship Datasetから抽出され、オブジェクトの相互作用の多様性と現実性が向上する。
モデルは、RoIを生成するためのリージョンプロポーザルネットワークを活用し、その後、オブジェクト認識とグリップ予測の両方を処理する。

実験結果

リサーチクエスチョン

RQ1RoIベースのCNNフレームワークは、重なっている複数オブジェクトのシーンにおいて、ターゲットとグリップの両方を効果的に検出できるか？
RQ2本手法の性能は、より大規模で複雑なデータセット上で、既存のグリップ検出アルゴリズムと比較してどうなるか？
RQ3ターゲットとグリップの共同検出は、実際のロボットシステムにおけるグリップ成功率をどの程度向上させるか？
RQ4本手法は、オブジェクトが豊富な環境におけるオクルージョンやごみ（クラッター）をどのように処理するか？

主な発見

本手法は、新たに作成されたマルチオブジェクトグリップデータセットで1 FPPIあたり24.0%のミス率を達成し、優れた検出性能を示している。
本モデルは、グリップ検出において70.5%の平均平均精度（mAP）を達成し、新データセットでの高い正確性を示している。
ロボット実験では、複数オブジェクトのシーンで指定されたターゲットを84%の確率でグリップに成功しており、実世界への適用可能性が検証された。
新たに作成されたデータセットはコーンルールグリップデータセットよりも大幅に大きく、一般化性能と学習安定性の向上に寄与している。
RoI領域内でのグリップ検出の統合により、ごみが多いシーンでも検出の一貫性が向上し、誤検出が減少した。
本手法は、検出精度および実世界のロボットグリップ成功率の両面で、ベースライン手法を上回っている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。