QUICK REVIEW

[論文レビュー] Sim-to-Real Transfer of Accurate Grasping with Eye-In-Hand Observations and Continuous Control

Mengyuan Yan, Iuri Frosio|arXiv (Cornell University)|Dec 8, 2017

Robot Manipulation and Learning参考文献 19被引用数 29

ひとこと要約

本論文は、目がついているRGBビジョンと閉ループディープニューラルネットワーク（DNN）コントローラーを用いて、1.37 cmの小さな球体の高精度なグリッピングを実現するモジュラーなシミュレーションから実世界への転送フレームワークを提案する。ドメインランダマイゼーションを用いて訓練されたビジョンモジュール（実際の背景とシミュレーテッドオブジェクトの合成）と、シミュレーションで模倣学習を用いて訓練されたDNNコントローラーを分離することで、実ロボット上でのグリッピング成功率が90％に達し、失敗回復のトレーニングを明示的に行わずに、動くターゲットやごみの多い環境にも一般化する。

ABSTRACT

In the context of deep learning for robotics, we show effective method of training a real robot to grasp a tiny sphere (1.37cm of diameter), with an original combination of system design choices. We decompose the end-to-end system into a vision module and a closed-loop controller module. The two modules use target object segmentation as their common interface. The vision module extracts information from the robot end-effector camera, in the form of a binary segmentation mask of the target. We train it to achieve effective domain transfer by composing real background images with simulated images of the target. The controller module takes as input the binary segmentation mask, and thus is agnostic to visual discrepancies between simulated and real environments. We train our closed-loop controller in simulation using imitation learning and show it is robust with respect to discrepancies between the dynamic model of the simulated and real robot: when combined with eye-in-hand observations, we achieve a 90% success rate in grasping a tiny sphere with a real robot. The controller can generalize to unseen scenarios where the target is moving and even learns to recover from failures.

研究の動機と目的

シミュレーションベースのトレーニングのみを用いて、実世界における1.37 cmの直径の小さな球体の高精度なグリッピングを可能にすること。
ビジョンと制御のモジュールを分離し、ドメインに依存しないインターフェース（セグメンテーション）を介して、ビジョンと制御におけるシミュレーションから実世界へのドメインギャップを解消すること。
3Dレンダリングの複雑さを要せず、シミュレーションと現実の間で照明や影の変化などの視覚的ドメインシフトに一般化可能なビジョンモジュールを開発すること。
シミュレーションで模倣学習を用いて訓練された閉ループDNNコントローラーを、ロボットのダイナミクスの不一致を耐えられ、現実世界での実行で失敗から回復できるようにすること。
エンドツーエンドの模倣学習とモジュラー設計により、LSTMや明示的な失敗データの拡張なしに、強靭で一般化可能なグリッピングを実現すること。

提案手法

システムはビジョンモジュールと閉ループDNNコントローラーに分解され、セグメンテーションマスクが共有インターフェースとして機能する。
ビジョンモジュールはドメインランダマイゼーション技術を用いて訓練される：実際の背景画像に、ターゲット球体の合成画像を重ね合わせて、現実世界の視覚的ばらつきを模擬する。
DNNビジョンモジュールはエンドエフェクターカメラからの実際のRGB画像を処理し、ターゲットオブジェクトのバイナリセグメンテーションマスクを出力することで、外観の違いを抽象化する。
閉ループDNNコントローラーは、エキスパートのデモンストレーションに基づき、シミュレーションで模倣学習を用いて訓練され、状態入力はセグメンテーションマスクから得られる。
コントローラーはリアルタイムで動作し、現在のセグメンテーションマスクに基づいてアクションを調整することで、位置誤差や動的誤差のオンライン補正が可能になる。
システム全体は、追加のファインチューニングなしに、同じDNNコントローラーとビジョンモジュールを用いて実ロボットにデプロイされる。

実験結果

リサーチクエスチョン

RQ1合成オブジェクトと実際の背景でトレーニングされたビジョンモジュールは、照明やオクルージョンの変化下で、非常に反射的な小さな球体（1.37 cm）の実世界でのセグメンテーションに一般化可能か？
RQ2ロボットのダイナミクスにシミュレーションと現実との不一致があるにもかかわらず、シミュレーションで訓練された閉ループDNNコントローラーは、実ロボットで高い成功率を達成できるか？
RQ3ビジョンと制御を分離したモジュラーなアーキテクチャは、動くターゲットや背景のごみといった未学習のシナリオに対しても、強靭な一般化を可能にするか？
RQ4失敗事例の明示的拡張なしに、模倣学習により失敗からの回復戦略を自然に学習できるか？
RQ5目がついているRGBビジョンとセグメンテーションベースのインターフェースを用いることで、第三者視点やオープンループアプローチと比較して、どれほど性能が向上するか？

主な発見

本システムは、実ロボット上での1.37 cmの直径の球体のグリッピング成功率が90％に達し、シミュレーションから実世界への効果的な転送を実証した。
DNNビジョンモジュールは、手動で調整されたHSVカラーフィルターベースラインと比較して、リcallが98.3％、精度が85.3％を達成し、特に影やオクルージョンの状況下で顕著に優れている。
ビジョンモジュールのトレーニングデータに含まれなかったにもかかわらず、動くターゲットのグリッピングと背景のごみの多い環境への対処に成功した。
LSTMや明示的な失敗データの拡張なしに、失敗したグリッピングから自然に回復戦略を学習した。
閉ループコントローラーは、シミュレーションと現実のロボット間の動的不一致を補償し、シミュレーションの正確さに限界がある状況下でも強靭な性能を発揮した。
モジュラー設計により、ビジョンモジュールとコントローラーモジュールを独立してトレーニングでき、最小限の再トレーニングで異なるロボットや環境に再利用可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。