Skip to main content
QUICK REVIEW

[論文レビュー] Learning Arbitrary-Goal Fabric Folding with One Hour of Real Robot Experience

Robert Lee, Daniel L. Ward|arXiv (Cornell University)|Oct 7, 2020
Robot Manipulation and Learning被引用数 23
ひとこと要約

本論文では、人間の示範やシミュレーション、報酬設計を一切用いずに、1時間の自己教師付き現実世界経験のみで、任意の目的を持つ布団の折りたたみを現実世界のロボットが学習できる、サンプル効率の高いゴール条件付き強化学習手法を提示する。この手法は、離散化された折りたたみ行動と後向き経験再生(Hindsight Experience Replay)を用いた完全畳み込みニューラルネットワーク(Deep Q-Network)であり、視覚的観測からのみ、未学習の折りたたみタスクにおいて最先端の性能を達成する。

ABSTRACT

Manipulating deformable objects, such as fabric, is a long standing problem in robotics, with state estimation and control posing a significant challenge for traditional methods. In this paper, we show that it is possible to learn fabric folding skills in only an hour of self-supervised real robot experience, without human supervision or simulation. Our approach relies on fully convolutional networks and the manipulation of visual inputs to exploit learned features, allowing us to create an expressive goal-conditioned pick and place policy that can be trained efficiently with real world robot data only. Folding skills are learned with only a sparse reward function and thus do not require reward function engineering, merely an image of the goal configuration. We demonstrate our method on a set of towel-folding tasks, and show that our approach is able to discover sequential folding strategies, purely from trial-and-error. We achieve state-of-the-art results without the need for demonstrations or simulation, used in prior approaches. Videos available at: https://sites.google.com/view/learningtofold

研究の動機と目的

  • 人間の示範やシミュレーション、報酬設計を一切用いずに、現実世界の布団の折りたたみを可能にすること。
  • 任意の未学習の目的設定に一般化可能な、サンプル効率の高い強化学習手法を開発すること。
  • 再トレーニングなしに、テスト時に高解像度のアクション空間に一般化できること。
  • 疎な視覚的報酬のみを用いて、試行錯誤の過程で複雑で順序付けられた折りたたみ戦略が自己生成されることを示すこと。

提案手法

  • 本手法は、RGB画像を処理し、ゴール条件付きのピックアンドプレース行動を予測する完全畳み込みニューラルネットワークを採用する。
  • 行動の離散化により、8つの回転ビンと3つのスケールビンを用いることで、サンプル効率を向上させつつ表現力を維持する。
  • 疎な報酬関数を用い、エージェントは現在の画像が目的画像と一致する場合にのみ密集した疎な報酬を受ける。
  • 後向き経験再生(HER)を適用し、達成された目的で遷移を再ラベル付けすることで、疎な報酬からの効率的学習を可能にする。
  • ロボットはランダムな相互作用を通じて、1時間分の現実世界での相互作用データを自律的に収集し、自己教師付きデータセットを構築する。
  • トレーニング済みポリシーは、再トレーニングなしに、テスト時に離散化ビンを増加させることで高解像度のアクション空間に一般化する。

実験結果

リサーチクエスチョン

  • RQ1ロボットは、1時間分の現実世界の自己教師付き経験のみで、複雑で順序付けられた布団の折りたたみタスクを学習できるか?
  • RQ2視覚ベースでゴール条件付きのポリシーは、人間の示範やシミュレーションなしに、任意の未学習の目的設定に一般化できるか?
  • RQ3疎な視覚的報酬のみを用いて、試行錯誤による複雑な折りたたみ戦略の学習はどの程度効果的か?
  • RQ4再トレーニングなしに、テスト時に高解像度のアクション空間に一般化できるか?
  • RQ5模倣学習やシミュレーションから現実への転送に依存する従来手法と比較して、本手法はどのように優れているか?

主な発見

  • 本手法は、3つの簡単な折りたたみタスク(小規模内向き、二重内向き、四隅内向き)で100%の成功率を達成し、ランダムベースラインを上回った。
  • 二重ストレート折りや二重三角折りといったより複雑なタスクでは、それぞれ60%および10%の成功率を達成し、直接的な監視なしに順序付けられた行動を推論できることを示した。
  • テスト時に高解像度のアクション空間に一般化でき、トレーニング時に存在しなかった繊細な制御を要するタスクで精度が向上した。
  • 視覚的重なりを減らすための小さな調整行動を学習したことで、布団の状態に関する内部的推論が行われていることが示された。
  • HERを除外したベースライン(アブレーテッドベースライン)は一貫して失敗しており、疎な報酬からの学習を可能にするために後向き経験再生が極めて重要であることが示された。
  • 人間の示範やシミュレーションを必要とする従来手法を上回り、現実世界のデータのみで最先端の結果を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。