QUICK REVIEW

[論文レビュー] Data-Efficient Learning for Sim-to-Real Robotic Grasping using Deep Point Cloud Prediction Networks

Xinchen Yan, Mohi Khansari|arXiv (Cornell University)|Jun 21, 2019

Robot Manipulation and Learning参考文献 58被引用数 29

ひとこと要約

本論文は、最小限の実世界のRGBDデータとシミュレーションデータからドメイン不変な3Dポイントクラウド表現を学習する、データ効率的なシミュレーションから実世界へのロボット grasping フレームワークを提案する。このフレームワークにより、実世界の grasping データを一切使用しない学習が可能となる。自己教師付きのクロスビュー一貫性を用いて3D形状を予測することで、61%の実世界 grasping 成功率を達成し、2.5Dベースラインよりも10%高い性能を示した。これは、シミュレーションから実世界へのドメインシフトに対しても頑健な一般化性能を示している。

ABSTRACT

Training a deep network policy for robot manipulation is notoriously costly and time consuming as it depends on collecting a significant amount of real world data. To work well in the real world, the policy needs to see many instances of the task, including various object arrangements in the scene as well as variations in object geometry, texture, material, and environmental illumination. In this paper, we propose a method that learns to perform table-top instance grasping of a wide variety of objects while using no real world grasping data, outperforming the baseline using 2.5D shape by 10%. Our method learns 3D point cloud of object, and use that to train a domain-invariant grasping policy. We formulate the learning process as a two-step procedure: 1) Learning a domain-invariant 3D shape representation of objects from about 76K episodes in simulation and about 530 episodes in the real world, where each episode lasts less than a minute and 2) Learning a critic grasping policy in simulation only based on the 3D shape representation from step 1. Our real world data collection in step 1 is both cheaper and faster compared to existing approaches as it only requires taking multiple snapshots of the scene using a RGBD camera. Finally, the learned 3D representation is not specific to grasping, and can potentially be used in other interaction tasks.

研究の動機と目的

ポリシーの学習にための実世界ロボット grasping データの収集にかかる高コストとデータ非効率性を解消すること。
最小限の実世界のRGBD観測からドメイン不変な3D形状表現を学習することで、シミュレーションから実世界へのドメインギャップを低減すること。
ポリシー学習にシミュレーションデータのみを用いて、ゼロショットのシミュレーションから実世界への転送を可能にすること。
タスクに依存しない軽量で幾何学的感覚を持つ3D表現を開発すること。

提案手法

自己教師付きの形状予測ネットワークが、クロスビュー一貫性を教師信号として用いて、単一視点のRGBD画像から完全な3Dポイントクラウドを再構成する。
同じ物体の複数のスナップショットを異なる視点から取得することで、トレーニング中に幾何学的整合性を強制する。
2段階のパイプラインを用いる：まず、約76,000回のシミュレーションエピソードと約530回の実世界エピソードからドメイン不変な3D形状表現を学習する。次に、予測された3D形状を用いてシミュレーション内でのみグリッピングクリティックポリシーを学習する。
3Dポイントクラウド表現をCEMベースのポリシーネットワークの入力として用い、エンドツーエンドのグリッピングポリシー最適化を実現する。
フレームワークは、オブジェクトインスタンス検出と深度推定にMask-RCNNを用い、その後、形状再構成損失で訓練されたポイントクラウド予測ヘッドを追加する。
相互作用に基づくデータ収集を避けるために、1エピソードあたり1分未塔のRGBDスナップショットのみを用いることで、実世界データ収集を最小限に抑える。

実験結果

リサーチクエスチョン

RQ1最小限の実世界RGBDデータから自己教師付きの3D形状予測モデルがドメイン不変な表現を学習できるか？
RQ2予測された3Dポイントクラウドを入力として用いる場合、シミュレーションデータのみで学習したグリッピングポリシーが実世界に一般化できるか？
RQ33Dポイントクラウド表現は、2.5D深度入力よりも、ロボットグリッピングにおけるシミュレーションから実世界へのドメインギャップを低減できるか？
RQ4入力視点の数が、3D形状再構成の品質および下流のグリッピングパフォーマンスにどのように影響するか？

主な発見

提案手法は、実世界の grasping データを一切使用せずに、未観測の物体に対して61%の実世界 grasping 成功率を達成し、2.5D深度ベースラインよりも10ポイント高い性能を示した。
4視点以上を用いた場合、未観測のキッチン用品に対して80.3%のIOUを達成し、実世界の物体に対しては62.6%のIOUを達成した。
1視点のみを用いた場合、性能が著しく低下（IOU ~0.19）し、形状再構成におけるマルチビュー監視の重要性が示された。
予測された3D形状を用いたポリシーは、2.5Dベースラインよりも一般化性能が高く、実世界での成功率低下が17%（68%から51%）にとどまる一方、3D表現を用いた場合の低下は10%にとどまった。
相互作用に基づくラベル付けを避けることで、1エピソードあたり1分未塔のRGBDスナップショットのみを用いることで、実世界データ収集コストを大幅に削減した。
学習された3D表現はタスクに依存せず、グリッピングを超えた他の操作タスクにも再利用可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。