QUICK REVIEW

[論文レビュー] Deep Learning a Grasp Function for Grasping under Gripper Pose Uncertainty

Edward Johns, Stefan Leutenegger|arXiv (Cornell University)|Aug 7, 2016

Robot Manipulation and Learning参考文献 17被引用数 33

ひとこと要約

本論文では、1枚の深度画像から、すべての可能なグリッパーの姿勢に対してグリッピング品質スコアを予測する深層学習アプローチを提案する（グリッピング関数）。このアプローチにより、不確実性分布を用いてグリッピング関数を平滑化することで、姿勢の不確実性下でも頑健なグリッピングを実現する。シミュレーションおよび実世界の実験において、標準的手法を上回る性能を示し、特に高い不確実性下でも80.3%の成功率を達成した。

ABSTRACT

This paper presents a new method for parallel-jaw grasping of isolated objects from depth images, under large gripper pose uncertainty. Whilst most approaches aim to predict the single best grasp pose from an image, our method first predicts a score for every possible grasp pose, which we denote the grasp function. With this, it is possible to achieve grasping robust to the gripper's pose uncertainty, by smoothing the grasp function with the pose uncertainty function. Therefore, if the single best pose is adjacent to a region of poor grasp quality, that pose will no longer be chosen, and instead a pose will be chosen which is surrounded by a region of high grasp quality. To learn this function, we train a Convolutional Neural Network which takes as input a single depth image of an object, and outputs a score for each grasp pose across the image. Training data for this is generated by use of physics simulation and depth image simulation with 3D object meshes, to enable acquisition of sufficient data without requiring exhaustive real-world experiments. We evaluate with both synthetic and real experiments, and show that the learned grasp score is more robust to gripper pose uncertainty than when this uncertainty is not accounted for.

研究の動機と目的

センサのノイズ、キャリブレーション誤差、機械的変形による深刻なグリッパー姿勢の不確実性に起因するロボットグリッピングの課題に対処すること。
最良の1つの姿勢を予測するのでなく、あらゆる可能なグリッパー姿勢に対して品質スコアを割り当てるグリッピング関数を開発すること。
グリッピング関数をガウス分布による不確実性カーネルと畳み込むことで、姿勢の不確実性をマージナライズし、頑健性を向上させること。
物理シミュレータと3次元オブジェクトメッシュからの合成深度画像を用いて大規模かつ多様なトレーニングデータを生成し、高価な実世界データ収集を回避すること。
実ロボットアーム（Kinova MICO）を用い、実際の姿勢不確実性を伴うシミュレーションおよび実世界の設定で、手法を検証すること。

提案手法

2次元グリッピング関数を生成するために、深層畳み込みニューラルネットワーク（CNN）を、深度画像上でのすべての離散化されたグリッパー姿勢に対してグリッピング品質スコアを予測するように訓練する。
トレーニングデータは、3次元オブジェクトメッシュから深度画像をレンダリングし、物理シミュレータを用いてグリッピングの安定性を評価することで合成される。
姿勢の不確実性は、画像空間（uv位置と回転θ）における2次元ガウス分布としてモデル化され、標準偏差σ_uvとσ_θは実ロボットの測定値から推定される。
グリッピング関数は、不確実性カーネルと畳み込むことで平滑化され、周囲に高品質な領域が広がる姿勢を優遇する頑健なグリッピング関数が得られる。
最終的なグリッピング姿勢は、平滑化された頑健なグリッピング関数の最大値として選択され、グリッパーが意図した姿勢からずれても安定性が保証される。
本手法は、ウェストマウントド深度カメラを装備した実ロボットアーム（Kinova MICO）を用いて評価され、20個の日常的オブジェクトを用い、テーブルから20cm持ち上げることを成功基準として測定された。

実験結果

リサーチクエスチョン

RQ1深層ニューラルネットワークは、1枚の深度画像から、あらゆる可能なグリッパー姿勢のグリッピング品質スコアを評価する包括的なグリッピング関数を学習できるか？
RQ2モデル化された姿勢不確実性分布を用いてグリッピング関数を平滑化することで、制御誤差が生じる状況下でもより頑健なグリッピングが達成できるか？
RQ3姿勢の不確実性が高いか低いかにかかわらず、頑健なグリッピング関数の性能は、標準的手法と比べてどのように異なるか？
RQ4物理シミュレーションと深度レンダリングを用いて生成された合成データは、実世界のロボットグリッピングタスクに効果的に転送可能か？
RQ5姿勢の不確実性が増加するにつれて、頑健な手法における最終的なグリッピング姿勢の選択にどのような影響が生じるか？

主な発見

頑健なグリッピング関数手法は、実ロボットの実際の姿勢不確実性（σ_uv = 6.2ピクセル、σ_θ = 4.7°）下で、実世界のグリッピングタスクにおいて80.3%の成功率を達成した。これは、ベースラインの「ベストグリップ」手法（78.0%）および「セントロイド」手法（75.2%）を上回った。
姿勢不確実性をσ_uv = 20ピクセルおよびσ_θ = 15°に引き上げた場合、頑健な手法の成功率は70.1%に上昇した一方で、「ベストグリップ」手法の成功率は62.4%に低下し、高不確実性下での優れた頑健性が示された。
本手法は、単一の最良の姿勢が衝突しやすいまたは不安定な領域に近い場合でも、周囲に高品質なグリッピングスコアが広がる領域へとグリッパーを誘導することで、不安定なグリッピング領域を効果的に回避した。
高不確実性下では、最適なグリッピング姿勢が重たいまたは複雑なオブジェクト部の周囲から排除され、むしろ長く細い特徴の中心部に選択される傾向があり、不確実性を考慮した計画の有効性が示された。
合成データから学習したグリッピング関数は、実世界の実行においても良好に一般化された。これは、シミュレーションベースのデータ生成がロボット操作タスクに有効であることを裏付けた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。