QUICK REVIEW

[論文レビュー] Robotic Pick-and-Place of Novel Objects in Clutter with Multi-Affordance Grasping and Cross-Domain Image Matching

Andy Zeng, Shuran Song|arXiv (Cornell University)|Oct 3, 2017

Robot Manipulation and Learning参考文献 38被引用数 46

ひとこと要約

本論文では、マルチアフォーダンス・グラッピングとクロスドメイン画像マッチングを用いて、クラッターの中の新規オブジェクトのオブジェクトに依存しないグラッピングと認識を可能にするロボットピックアンドプレースシステムを提示する。RGB-D画像から直接グラッピングアフォーダンスを予測し、2ストリームのConvNetを用いて掴んだオブジェクトを製品画像とマッチングすることで、タスク固有のトレーニングを必要とせず高い成功率を達成し、2017年アマゾンロボティクスチャレンジのストーリングタスクで1位を獲得した。

ABSTRACT

This paper presents a robotic pick-and-place system that is capable of grasping and recognizing both known and novel objects in cluttered environments. The key new feature of the system is that it handles a wide range of object categories without needing any task-specific training data for novel objects. To achieve this, it first uses a category-agnostic affordance prediction algorithm to select and execute among four different grasping primitive behaviors. It then recognizes picked objects with a cross-domain image classification framework that matches observed images to product images. Since product images are readily available for a wide range of objects (e.g., from the web), the system works out-of-the-box for novel objects without requiring any additional training data. Exhaustive experimental results demonstrate that our multi-affordance grasping achieves high success rates for a wide variety of objects in clutter, and our recognition algorithm achieves high accuracy for both known and novel grasped objects. The approach was part of the MIT-Princeton Team system that took 1st place in the stowing task at the 2017 Amazon Robotics Challenge. All code, datasets, and pre-trained models are available online at http://arc.cs.princeton.edu

研究の動機と目的

タスク固有のトレーニングデータを必要とせずに、混雑した環境における新規オブジェクトの堅牢なグラッピングと認識の課題に対処すること。
ウェブから容易に入手可能な製品画像のみを用いて、多様な未知のオブジェクトを処理できるロボットシステムを実現すること。
グラッピング計画とオブジェクト認識を分離することで、「まずピックしてから質問する」という運用を可能にし、認識の信頼性を向上させること。
オブジェクトの多様性が高く、データ収集が非現実的な実世界の応用、たとえば倉庫自動化やサービスロボティクスに適したスケーラブルなソリューションを設計すること。

提案手法

RGB-D画像から直接4種類の基本的グラッピング動作（例：サイドグラブ、サクション）のための密度の高いピクセル単位のアフォーダンスマップを生成するため、完全畳み込みネットワーク（FCN）を採用する。
事前のオブジェクトセグメンテーションや分類を行わず、アフォーダンス値が最大のグラッピング動作を選択・実行する。
観測された掴んだオブジェクトの画像とウェブ上の製品画像をマッチングするため、2ストリームのシアンズ型ConvNetを用い、ゼロショット認識を実現する。
クロスドメイン画像マッチングを活用し、再トレーニングを必要とせず、代表的な製品画像のみに依存して新規オブジェクトに適応すること。
グラッピング計画と認識モジュールを1つのパイプラインに統合し、アクティブなビジョンを伴うリアルタイム動作を実現する。
合成データやオブジェクト固有のアノテーションを避けるために、実世界のロボットインタラクションデータとウェブスクリーピングされた製品画像を用いて、エンドツーエンドでシステムをトレーニングする。

実験結果

リサーチクエスチョン

RQ1タスク固有のトレーニングデータを必要とせず、多様で新規のオブジェクトを混雑した環境で高いグラッピング成功率で扱えるか？
RQ2ウェブ上の製品画像のみを用いて再トレーニングを必要とせず、クロスドメイン画像マッチングによって掴んだオブジェクトの正確な認識が可能か？
RQ3オブジェクトに依存しないグラッピング計画アプローチ—オブジェクトの識別よりもアフォーダンス予測を優先する—が、混雑したシーンにおける耐性と信頼性を向上させるか？
RQ4「まずピックしてから質問する」というパラダイムは、従来の認識後にグラッピングを行うパイプラインに比べ、新規オブジェクトの認識精度を向上させるか？
RQ5オブジェクトの多様性が高い実世界の応用、たとえば倉庫物流やホームアシスタンスにおいて、反復的なデータ収集なしにどの程度スケーラブルに拡張可能か？

主な発見

マルチアフォーダンス・グラッピングフレームワークは、柔ららかく変形しやすく、部分的に隠されているような困難なケースを含め、広範なオブジェクトカテゴリにおいて混雑した環境で高い成功率を達成した。
クロスドメイン画像マッチングシステムは、わずかなウェブスクリーピングされた製品画像を参照として用いるだけで、既知および新規のオブジェクトに対して高い認識精度を達成した。
本システムは、アマゾンロボティクスチャレンジ2017年のストーリングタスクにおいて、すべての既知および新規オブジェクトを正常にストーリングし、他の全チームを上回り、1位を獲得した。
「まずピックしてから質問する」アプローチにより、掴んだ後におけるオブジェクトの混雑からの分離によって、視覚的マッチングの曖昧さが低減され、認識の信頼性が著しく向上した。
再トレーニングや追加のデータ収集を一切行わず、オンラインで入手可能な製品画像のみに依存して、新規オブジェクトへの一般化性能が強く示された。
オブジェクトに依存しないグラッピング計画アプローチは、境界や識別が曖昧な高クラッター環境において、セグメンテーションベースの手法よりもより耐性があることが実証された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。