QUICK REVIEW

[論文レビュー] Learning Predictive Representations for Deformable Objects Using Contrastive Estimation

Wilson Yan, Ashwin Vangipuram|arXiv (Cornell University)|Mar 11, 2020

Robot Manipulation and Learning参考文献 53被引用数 75

ひとこと要約

本論文は、変形可能な物体の潜在表現と前方ダイナミクスを共同で学習する対照予測モデリングフレームワーク（CFM）を提案し、効率的なMPC計画とドメインランダム化を用いた sim-to-real 転送を可能にします。

ABSTRACT

Using visual model-based learning for deformable object manipulation is challenging due to difficulties in learning plannable visual representations along with complex dynamic models. In this work, we propose a new learning framework that jointly optimizes both the visual representation model and the dynamics model using contrastive estimation. Using simulation data collected by randomly perturbing deformable objects on a table, we learn latent dynamics models for these objects in an offline fashion. Then, using the learned models, we use simple model-based planning to solve challenging deformable object manipulation tasks such as spreading ropes and cloths. Experimentally, we show substantial improvements in performance over standard model-based learning techniques across our rope and cloth manipulation suite. Finally, we transfer our visual manipulation policies trained on data purely collected in simulation to a real PR2 robot through domain randomization.

研究の動機と目的

変形可能な物体の計画可能な視覚表現と複雑なダイナミクスを学習するという課題に対処する。
対照的な目的関数を用いて視覚エンコーダと潜在的前方モデルを共同最適化する。
対照学習が潜在空間の構造と計画の品質をベースラインより改善することを示す。
実世界の学習データなしで、PR2ロボットへの方針の sim-to-real 転送を実証する。

提案手法

観測をエンコーダ g_theta を用いて潜在空間に符号化し、z_t と a_t から z_{t+1} を予測する潜在前方モデル f_phi を学習する。
予測された潜在状態と真の潜在状態の相互情報量を最大化するために、InfoNCE 対照損失を用いてエンコーダと前方モデルを共同に訓練する。
次元を単純なMPC方式を用いて、行動をサンプリングし、次の潜在状態を予測し、ゴール潜在状態への距離を最小化する行動を選択する。
頑健性と計画効率を向上させるために、ピクセル空間ではなく潜在空間で計画する。
シミュレーションでロープと布の操作タスクを評価し、ドメインランダム化を介して実機ロボットへ転送する。
対照損失のバリアントと前方モデルのアーキテクチャを比較するアブレーションを提供し、設計選択を正当化する。

実験結果

リサーチクエスチョン

RQ1対照学習は、ベースラインと比較して、変形可能な物体操作の計画のためのより良い潜在表現と前方モデルを生み出すか？
RQ2対照フレームワークのどの要素が性能に最も寄与するか（損失形、前方モデルの容量、アーキテクチャ）？

主な発見

CFMは、シミュレーション上でロープと布のタスクにおいて、ランダムポリシー、視覚前方モデル、オートエンコーダ、PlaNet、結合ダイナミクスよりも大幅に優れている。
提案された対照的類似性と前方モデルを備えたCFMは、複数の向きとタスクにわたり、目標への最終状態の幾何的距離をベースラインより小さく達成する。
ドメインランダム化により、追加の実世界学習データなしでPR2ロボットへのsim-to-real転送が可能となり、実機テストでベースラインより高い性能を示す。
アブレーションにより、提案された対照的類似性関数と非線形前方モデルが最良の計画性能を示す。
CFMは、異なる目標設定の下で頑丈な多目標の変形可能物体操作を実証する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。