QUICK REVIEW

[論文レビュー] Transporter Networks: Rearranging the Visual World for Robotic Manipulation

Andy Zeng, Pete Florence|arXiv (Cornell University)|Oct 27, 2020

Robot Manipulation and Learning参考文献 47被引用数 41

ひとこと要約

Transporter Networks は、視覚的特徴を再配置して操作の空間的変位を予測することを学習し、物体中心表現を用いずに高いサンプル効率を達成し、見たことのない物体、多段階タスク、および 6DoF の配置へ一般化します。これは、局所的な切り抜きを輸送するための特徴テンプレートマッチングを用いたピック＆プレースフレームワークを使用し、エンドツーエンドのビジョンベース操作を行います。

ABSTRACT

Robotic manipulation can be formulated as inducing a sequence of spatial displacements: where the space being moved can encompass an object, part of an object, or end effector. In this work, we propose the Transporter Network, a simple model architecture that rearranges deep features to infer spatial displacements from visual input - which can parameterize robot actions. It makes no assumptions of objectness (e.g. canonical poses, models, or keypoints), it exploits spatial symmetries, and is orders of magnitude more sample efficient than our benchmarked alternatives in learning vision-based manipulation tasks: from stacking a pyramid of blocks, to assembling kits with unseen objects; from manipulating deformable ropes, to pushing piles of small objects with closed-loop feedback. Our method can represent complex multi-modal policy distributions and generalizes to multi-step sequential tasks, as well as 6DoF pick-and-place. Experiments on 10 simulated tasks show that it learns faster and generalizes better than a variety of end-to-end baselines, including policies that use ground-truth object poses. We validate our methods with hardware in the real world. Experiment videos and code are available at https://transporternets.github.io

研究の動機と目的

明示的な物体表現を使わない、サンプル効率の高いエンドツーエンドのビジョンベース操作の動機付け。
視覚入力の空間構造を保持して、等変性と効率的な学習を可能にする。
ローカル領域に注目し、深い特徴テンプレートマッチングを介してその空間的変位を予測する Transporter Network アーキテクチャを提案します。
2D SE(2) および 3D SE(3) の配置にわたる能力を、マルチステップおよび変形可能/積み荷の操作タスクを含めて実証します。
シミュレートされたテーブルトップタスクにおける強力なベースラインと比較して、優れたサンプル効率と一般化を示し、実機ロボットでの検証を行います。

提案手法

操作を視覚入力から推定された空間的変位の連続として表現します。
ピックネットワークを用いてピクセルグリッド上の成功したピッキングポーズの分布を特定します。
ピックを条件付けた配置機構を開発します。ピックの周りのクロップを高密度特徴マップとの相互相関を通じて景観全体に輸送し、配置ポーズを評価します。
RGB-D データから導出される空間的一貫性のある3Dのトップダウン（正投影）表現を用いて空間構造を保持します。
深い特徴を用いたテンプレートマッチングを採用します：Q_place(tau|o_t, T_pick) = psi(o_t[T_pick]) * phi(o_t)[tau].
SE(2) を SE(3) に多段階的に拡張します：まず SE(2) の配置を推定し、次に回転軸と平行移動軸の残りを連続回帰ヘッドで回帰します。オプションとして混合密度で多モードをモデル化します。
デモンストレーションを用いて、ピクセルごとのピック/プレースマップをクロスエントロピーと空間出力上のソフトマックスを用いて監視する形で訓練します；検証は単一GPU上で数時間で収束します。

実験結果

リサーチクエスチョン

RQ1空間的に構造化されたオブジェクト非依存のモデルは、視覚デモンストレーションから効率的で多モードな操作方針を学習できるだろうか？
RQ23D空間構造を保持し、特徴ベースの輸送を用いることは、エンドツーエンドの画像から行動へのベースラインよりサンプル効率を改善するだろうか？
RQ3ピック条件付き輸送は、SE(2)およびSE(3)における未見の物体・回転・マルチステップタスクへどの程度一般化できるか。
RQ4閉ループ視覚フィードバックを用いた二点プリミティブで、変形可能な物体や積み荷を扱うことはできるか。
RQ56DoF操作のための多段階のSE(2)からSE(3)拡張の限界と能力は何か。

主な発見

Transporter Networks は、10 のテーブルトップタスクで高い成功率を達成し、見たことのない物体構成に対しても強い一般化を、控えめなデモンストレーションで示します。
彼らは、画像ベースのベースラインに比べて桁違いに高いサンプル効率を示し、いくつかのタスクでグラウンドトゥルース姿勢ベースラインを上回ります。
本手法は、マルチステップのシーケンス化と、SE(2)多段階と残りのDoFを回帰することで、6DoFのピック＆プレースへ一般化します。
本手法は閉ループ視覚フィードバックをサポートし、状態を持たないにもかかわらず非マルコフ的な設定で回復行動を学習できます。
定性的な結果は、明示的な物体モデルに依存せず、多モード性および回転/並進の一般化を示します。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。