Skip to main content
QUICK REVIEW

[論文レビュー] Real-Time, Highly Accurate Robotic Grasp Detection using Fully Convolutional Neural Networks with High-Resolution Images

Dong-Won Park, Yonghyeok Seo|arXiv (Cornell University)|Sep 16, 2018
Robot Manipulation and Learning参考文献 17被引用数 25
ひとこと要約

本論文は、高解像度のRGB-D画像を用いたリアルタイムで高精度なロボットグリップ検出を実現する、完全畳み込みニューラルネットワーク(FCNN)ベースの手法を提案する。エンド・ツー・エンド学習と、新規の自動ビジョン-ロボットキャリブレーション技術を活用することで、360×360画像あたり6–20msの推論時間で、新規の小型物体に対する96.6%のグリップ検出精度と90%のグリップ成功率を達成した。

ABSTRACT

Robotic grasp detection for novel objects is a challenging task, but for the last few years, deep learning based approaches have achieved remarkable performance improvements, up to 96.1% accuracy, with RGB-D data. In this paper, we propose fully convolutional neural network (FCNN) based methods for robotic grasp detection. Our methods also achieved state-of-the-art detection accuracy (up to 96.6%) with state-of- the-art real-time computation time for high-resolution images (6-20ms per 360x360 image) on Cornell dataset. Due to FCNN, our proposed method can be applied to images with any size for detecting multigrasps on multiobjects. Proposed methods were evaluated using 4-axis robot arm with small parallel gripper and RGB-D camera for grasping challenging small, novel objects. With accurate vision-robot coordinate calibration through our proposed learning-based, fully automatic approach, our proposed method yielded 90% success rate.

研究の動機と目的

  • 高解像度のRGB-D画像を用いて、新規の小型物体に対してリアルタイムで高精度なロボットグリップ検出を可能にすること。
  • 多数の物体や複数グリップの状況を含む複雑でごみくずの多い環境における、正確で効率的なグリップ検出の課題に対処すること。
  • システムの信頼性を向上させ、手動設定を減らすために、完全自動で学習ベースのビジョン-ロボット座標系キャリブレーション手法を開発すること。
  • 標準ベンチマークにおいて、精度と推論速度の両面で最先端のパフォーマンスを達成すること。

提案手法

  • 本手法は、高解像度のRGB-D画像をエンド・ツー・エンドで処理する完全畳み込みニューラルネットワーク(FCNN)アーキテクチャを採用し、グリップ候補の密度予測を可能にする。
  • FCNNは、領域提案ネットワークを用いずに、入力画像から直接、グリップ角度、幅、品質を予測するグリップアフォーダンスマップを学習する。
  • カメラとロボットの座標系を最小限の人的介入で一致させる、新規の学習ベースで完全自動のビジョン-ロボット座標系キャリブレーション手法を導入する。
  • 4軸のロボットアームに小型の並進グリッパーを搭載し、リアルタイム推論を用いてグリップ動作を制御する。
  • 推論速度を最適化し、360×360画像あたり6–20msの高速推論を達成し、リアルタイム動作を可能にした。
  • 本手法は任意の入力画像サイズをサポートしており、複数の物体に同時に複数のグリップを検出できる。

実験結果

リサーチクエスチョン

  • RQ1完全畳み込みニューラルネットワークは、高解像度のRGB-D画像に対して高精度なグリップ検出を実現しつつ、リアルタイム推論を維持できるか?
  • RQ2提案された自動ビジョン-ロボットキャリブレーション手法は、手動キャリブレーションと比較して、グリップ成功率をどの程度向上させるか?
  • RQ3本手法は、現実世界の設定において、新規の小型で難しい物体のグリップ検出にどの程度の性能を示すか?
  • RQ4FCNNベースのアプローチは、複数グリップ・複数物体の状況において、さまざまな物体のサイズや配置にどの程度一般化できるか?

主な発見

  • 提案されたFCNNベースの手法は、Cornellデータセットで96.6%のグリップ検出精度を達成し、以前の最先端手法を上回った。
  • 本システムは、360×360画像あたり6–20msの遅延でリアルタイム推論を実現し、ロボットシステムへの実用的導入を可能にした。
  • 提案された自動ビジョン-ロボットキャリブレーションを用いることで、ロボットは新規の小型物体に対して90%の成功率でグリップを達成した。
  • 本手法は、複数の物体に同時に複数のグリップを検出でき、複雑なシーンにおけるスケーラビリティと耐障害性を示した。
  • FCNNアーキテクチャにより、再トレーニングなしに任意の画像サイズでの推論が可能となり、実世界の応用における柔軟性が向上した。
  • 高解像度の入力とエンド・ツー・エンド学習の統合により、グリップの局所化と検出の信頼性が顕著に向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。