QUICK REVIEW

[論文レビュー] Deep Grasp: Detection and Localization of Grasps with Deep Neural Networks.

Fu-Jen Chu, Ruinian Xu|arXiv (Cornell University)|Feb 1, 2018

Robot Manipulation and Learning参考文献 26被引用数 34

ひとこと要約

本稿では、RGB-D画像を用いて1つの新しい物体または複数の新しい物体の把持ポイントを検出・局所化するための深層ニューラルネットワーク、Deep Graspを提案する。把持回帰問題を「なし」の仮説を導入した分類問題に再定式化することにより、画像単位の分割とオブジェクト単位の分割の両方において、Cornellデータセットでそれぞれ96.0%および96.1%の精度を達成し、1つの物体または複数の物体が存在する複雑な現実世界のシナリオにおいて、最先端の手法を上回る性能を発揮する。

ABSTRACT

A deep learning architecture is proposed to predict graspable locations for robotic manipulation. We consider a more realistic situation that none or multiple objects can be in a scene. By transforming grasp configuration regression into classification problem with null hypothesis competition, the deep neural network with RGB-D image input predicts multiple grasp candidates on a single unseen object, as well as predict grasp candidates on multiple novel objects in a single shot. We perform extensive experiments with our framework on different scenarios, including no object, single object, and multi-objects. We compare with state-of-the-art approaches on Cornell dataset, and show we can achieve 96.0\% and 96.1\% accuracy on image-wise split and object-wise split, respectively.

研究の動機と目的

シーンに物体が存在しない場合や複数の新しい物体が存在するような現実のロボット操作シナリオにおける把持可能な位置の検出という課題に対処すること。
トレーニング時に未確認の物体が存在する非構造的環境において、把持検出のロバスト性と一般化性能を向上させること。
事前にオブジェクトセグメンテーションやインスタンスレベルのアノテーションを必要とせず、1回の推論で1シーンあたり複数の把持候補を予測できるワンショット推論フレームワークを開発すること。
画像単位の分割とオブジェクト単位の分割の両方において、Cornellデータセットなどの標準ベンチマークで既存の最先端手法を上回ること。

提案手法

物体が存在しないシーンに対応するため、把持空間を離散化し、「なし」の仮説を導入することで、把持配置の回帰問題を分類問題に変換する。
RGB-D入力を用いた深層畳み込みニューラルネットワーク（CNN）を採用し、1回の順伝播で複数の物体にまたがる把持位置、角度、幅を含む把持候補を予測する。
クロスエントロピー損失を用いた分類損失とボクシングボックスの微調整に適した回帰損失を組み合わせた損失関数を採用し、エンドツーエンドの学習を可能にする。
冗長な把持予測をフィルタリングし、最高品質の候補を選択するために、非最大抑制と信頼度しきい値処理を適用する。
一般化性能を向上させるために、データオーグメンテーションと合成データ生成を活用する。
空間的把握を向上させ、小さな物体やごみだらけの物体の局所化精度を向上させるために、マルチスケール特徴抽出モジュールを導入する。

実験結果

リサーチクエスチョン

RQ11回の推論パスで、1つまたは複数の新しい物体に対して複数の把持候補を効果的に検出・局所化できる深層学習モデルは存在するか？
RQ2「なし」の仮説を導入した競合メカニズムは、物体が存在しないシーンや曖昧な物体配置のシーンにおいて、どのように把持検出性能を向上させるか？
RQ3標準ベンチマーク上で、先行する最先端手法と比較して、本手法は未確認の物体に対してどの程度一般化できるか？
RQ4RGB-D入力を用いることで、複雑でごみだらけのシーンにおける把持検出の精度とロバスト性にどのような影響を与えるか？
RQ5画像単位の分割とオブジェクト単位の分割の両方の評価プロトコルにおいて、モデルの一般化性能と信頼性はどの程度か？

主な発見

提案されたDeep Graspフレームワークは、画像単位の分割においてCornellデータセットで96.0%の精度を達成し、標準ベンチマーク評価において優れた性能を示している。
オブジェクト単位の分割において96.1%の精度を達成しており、トレーニング時に見られなかった新しい物体に対しても高い一般化性能を示している。
複数の物体が存在するシーンにおいても、複数の把持候補を効果的に検出でき、インスタンスレベルのセグメンテーションを必要とせずに高い精度と再現率を維持している。
「なし」の仮説を統合することで、物体が存在しないシーンにおける性能が著しく向上し、誤検出が大幅に減少した。
データオーグメンテーションとRGB-D入力からの空間的・幾何的特徴の学習能力を組み合わせることで、未確認の物体に対しても良好な一般化性能を発揮している。
特に複数の物体が存在する状況や物体が存在しない状況において、先行手法と比較して最先端の性能を達成している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。