QUICK REVIEW

[論文レビュー] Dex-Net 2.0: Deep Learning to Plan Robust Grasps with Synthetic Point Clouds and Analytic Grasp Metrics

Jeffrey Mahler, Jacky Liang|arXiv (Cornell University)|Mar 27, 2017

Robot Manipulation and Learning参考文献 2被引用数 276

ひとこと要約

Dex-Net 2.0 は、6.7 million synthetic depth images と analytic grasp metrics に基づく Grasp Quality CNN をトレーニングし、頑健な把持を迅速に予測して、実機ロボットでの高速・高精度なロボット把持を実現します。

ABSTRACT

To reduce data collection time for deep learning of robust robotic grasp plans, we explore training from a synthetic dataset of 6.7 million point clouds, grasps, and analytic grasp metrics generated from thousands of 3D models from Dex-Net 1.0 in randomized poses on a table. We use the resulting dataset, Dex-Net 2.0, to train a Grasp Quality Convolutional Neural Network (GQ-CNN) model that rapidly predicts the probability of success of grasps from depth images, where grasps are specified as the planar position, angle, and depth of a gripper relative to an RGB-D sensor. Experiments with over 1,000 trials on an ABB YuMi comparing grasp planning methods on singulated objects suggest that a GQ-CNN trained with only synthetic data from Dex-Net 2.0 can be used to plan grasps in 0.8sec with a success rate of 93% on eight known objects with adversarial geometry and is 3x faster than registering point clouds to a precomputed dataset of objects and indexing grasps. The Dex-Net 2.0 grasp planner also has the highest success rate on a dataset of 10 novel rigid objects and achieves 99% precision (one false positive out of 69 grasps classified as robust) on a dataset of 40 novel household objects, some of which are articulated or deformable. Code, datasets, videos, and supplementary material are available at http://berkeleyautomation.github.io/dex-net .

研究の動機と目的

センシングと actuation の不確実性の下で、頑健な把持計画を促進する。
合成データを用いて把持の頑健性モデルを訓練することで、データ収集時間を短縮する。
明示的な物体モデルに頼る代わりに、深度画像から直接把持の成功を予測する。
頑健な把持計画のために、分析的な把持指標を用いて合成データにラベルを付ける。
実機実験と新規物体で訓練済みプランナーを評価する。

提案手法

1500 の3D物体モデルを antipodal parallel-jaw 把持と頑健な分析的指標と組み合わせて、6.7百万ポイントの点群データセット Dex-Net 2.0 を生成する。
深度画像入力から把持の頑健性 Q(u,y) を推定する Grasp Quality Convolutional Neural Network (GQ-CNN) を訓練する。
把持をカメラに対する平面姿勢と深度として表現し、学習を簡略化するために深度画像を把持中心/方向へ整列させる。
モンテカルロ法による物体姿勢、グリッパ姿勢、摩擦のサンプリングを用いて、各候補把持の頑健な epsilon 品質 E_Q を算出する。
antipodal 候補をサンプリングし、予測された頑健性でランク付けし、実行可能なトップ把持を実行する。
実ロボット試験で性能を評価し、画像ベースの指標、ランダムフォレスト、SVM、登録ベースのアプローチと比較する。

実験結果

リサーチクエスチョン

RQ1合成データのみで訓練された CNN は深度画像から頑健な把持を予測できるか？
RQ2既知および新規物体に対して、合成データで訓練された把持プランナーは、認識＋登録のベースラインとどう比較されるか？
RQ3訓練データサイズとノイズモデリングが、把持の頑健性分類と計画性能に与える影響は？
RQ4高速な深度画像ベースの把持プランナーで、実機ロボット上で高い成功と高精度を達成することは可能か？

主な発見

Dex-Net 2.0 プランナーは、8つの既知オブジェクトで 0.8 seconds のプランニング時間と 93% の成功率を達成します（対抗的な幾何を持つ）。
Dex-Net 2.0 のプランニングは、事前計算済みデータベースにマッチングする登録ベースのアプローチのおよそ3倍速い。
10個の新規剛体物体のデータセットで、評価された手法の中で最高の成功率を示す。
40個の新規家庭用物体のデータセットで、プランナーは 99% の精度を達成（69回の頑健な分類中1回の偽陽性）。
合成データのみで訓練された GQ-CNN は、報告された実験で、いくつかのベースライン (IGQ, REG, ML-RF, ML-SVM) よりも新規物体への一般化性能が高い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。