Skip to main content
QUICK REVIEW

[論文レビュー] End-to-End Learning of Semantic Grasping

Eric Jang, Sudheendra Vijayanarasimhan|arXiv (Cornell University)|Jul 6, 2017
Robot Manipulation and Learning参考文献 25被引用数 39
ひとこと要約

本稿では、単眼RGB画像を用いたセマンティックロボットグリッピングのエンドツーエンド2ストリームディーブラーニングフレームワークを提案する。空間的グリッププランニング(後頭側ストリーム)とオブジェクトクラス認識(側頭側ストリーム)を分離し、自己教師付きロボットデータ収集と半教師付きラベル伝搬を活用して、最小限の人的ラベル付きデータで学習を実現し、非エンドツーエンドベースラインおよび単一ストリームモデルと比較して顕著な性能向上を達成した。

ABSTRACT

We consider the task of semantic robotic grasping, in which a robot picks up an object of a user-specified class using only monocular images. Inspired by the two-stream hypothesis of visual reasoning, we present a semantic grasping framework that learns object detection, classification, and grasp planning in an end-to-end fashion. A "ventral stream" recognizes object class while a "dorsal stream" simultaneously interprets the geometric relationships necessary to execute successful grasps. We leverage the autonomous data collection capabilities of robots to obtain a large self-supervised dataset for training the dorsal stream, and use semi-supervised label propagation to train the ventral stream with only a modest amount of human supervision. We experimentally show that our approach improves upon grasping systems whose components are not learned end-to-end, including a baseline method that uses bounding box detection. Furthermore, we show that jointly training our model with auxiliary data consisting of non-semantic grasping data, as well as semantically labeled images without grasp actions, has the potential to substantially improve semantic grasping performance.

研究の動機と目的

  • 単眼RGB画像のみを用いて、高レベルのセマンティックコマンドに基づいてオブジェクトを選択し、持ち上げるロボットグリッピングシステムの開発。
  • セマンティックグリッピングにおける人的ラベル付きデータの限界を克服するため、自己教師付きデータ収集と半教師付きラベル伝搬を活用すること。
  • 非セマンティックグリッピングデータとセマンティックラベル付き画像(グリッピング行動を伴わない)を統合することで、セマンティックグリッピングにおける一般化性能の向上を図ること。
  • 補助データを共同で学習させることで、ロボットグリッピングにおける空間的およびセマンティック推論性能が向上するかどうかを調査すること。

提案手法

  • モデルは2ストリームニューラルネットワークを採用:後頭側ストリームは幾何的関係に基づいてグリップ成功を予測し、側頭側ストリームはグリップ対象のオブジェクトを分類する。
  • 自己教師付きデータは自律的ロボットインタラクションにより収集され、成功したグリップの後にはオブジェクトのクローズアップ画像が得られ、ラベリングに用いられる。
  • 半教師付きラベル伝搬は、グリップ後に撮影された少量の人的ラベル付き「プレゼント」画像を用いて、大規模なごみ混じりグリッピングデータにセマンティックラベルを割り当てる。
  • 側頭側ストリームは、同じロボットが収集したデータから得られた人的ラベル付きプレゼント画像と伝搬されたラベルの両方を用いて訓練される。
  • 非セマンティックグリッピングデータセット(S1)および一般画像分類データセット(S2)からの補助データを用いて一般化性能を向上させる。
  • モデルはエンドツーエンドで訓練され、両ストリームが同時に最適化され、注意機構を組み込んだアーキテクチャに容易に適応可能である。

実験結果

リサーチクエスチョン

  • RQ12ストリームディープラーニングアーキテクチャは、1つのエンドツーエンドポリシーとして空間的グリッププランニングとセマンティックオブジェクト認識を効果的に統合できるか?
  • RQ2自己教師付きロボットデータ収集は、セマンティックグリッピングにおける人的ラベル付きデータ依存度を低下させるためにどのように活用できるか?
  • RQ3補助的非セマンティックグリップデータの統合が、セマンティックグリッピングタスクの性能にどの程度寄与するか?
  • RQ4グリップ行動を伴わないセマンティックラベル付き画像からの転移学習は一般化を向上させるか?ドメインシフトの影響は何か?
  • RQ5グリップ後のオブジェクトの「プレゼント」画像を用いた半教師付きラベル伝搬は、大規模ロボットデータセットへのセマンティックラベリングを効果的にスケーリングできるか?

主な発見

  • 2ストリームモデルは、標準的な検出ベースベースラインおよび単一ストリームモデルを上回り、補助グリップデータを用いることで、未学習オブジェクトの分類成功率で3.0%の向上を達成した。
  • 補助的非セマンティックグリップデータ(S1)を統合することで、分類/試行回数の正確さが、分離された2ストリームベースライン比で3.0%向上した。
  • 補助的セマンティックラベル付き画像(S2)を用いることで、トレーニングオブジェクトおよび未学習のテストオブジェクトの両方でグリップ正確さが向上した。
  • 補助データがターゲットドメインに近い場合、ドメイン転送による利益が得られるが、ImageNet や JFT などの高いドメインシフトが生じる場合には性能向上が減少する傾向を示した。
  • 注意機構を組み込んだモデルバージョンではさらなる向上が得られ、補助グリップデータを組み合わせた場合、トレーニングオブジェクトで2.2%、未学習オブジェクトで3.3%の向上が得られた。
  • プレゼント画像を用いたラベル伝搬により、ごみ混じりのグリップシーンに対する効果的なセマンティックラベリングが可能となり、ロボティクス分野における大規模自己教師付きセマンティックラベリングの実現可能性が示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。