QUICK REVIEW

[論文レビュー] Solving Rubik's Cube with a Robot Hand

OpenAI, Ilge Akkaya|arXiv (Cornell University)|Oct 16, 2019

Domain Adaptation and Few-Shot Learning参考文献 111被引用数 630

ひとこと要約

本論文は、ヒューマノイドロボットの手でルービックキューブを解くために、制御方針と視覚状態推定器を完全にシミュレーションで訓練し、ADR（自動ドメインランダム化）を用いて効果的なSim2Real転送を実証した。

ABSTRACT

We demonstrate that models trained only in simulation can be used to solve a manipulation problem of unprecedented complexity on a real robot. This is made possible by two key components: a novel algorithm, which we call automatic domain randomization (ADR) and a robot platform built for machine learning. ADR automatically generates a distribution over randomized environments of ever-increasing difficulty. Control policies and vision state estimators trained with ADR exhibit vastly improved sim2real transfer. For control policies, memory-augmented models trained on an ADR-generated distribution of environments show clear signs of emergent meta-learning at test time. The combination of ADR with our custom robot platform allows us to solve a Rubik's cube with a humanoid robot hand, which involves both control and state estimation problems. Videos summarizing our results are available: https://openai.com/blog/solving-rubiks-cube/

研究の動機と目的

訓練データとして完全にシミュレーションデータだけを用いて、五指のヒューマノイドハンドでルービックキューブを解くことを実証する。
制御方針と視覚モデルのための、成長する多様な訓練環境を生成する自動ドメインランダム化（ADR）を導入する。
ADRで訓練した方針がなぜ実機へ転送されるのか、そして出現的メタ学習が生じるかを調査する。
操作と感知タスクを密接にモデル化するロボットプラットフォームと、それに伴うシミュレーションパイプラインを構築する。

提案手法

ランダム化されたシミュレーション環境の分布を徐々に拡張する新規ADRアルゴリズムを開発する。
進化するタスクを解決するため、メモリ拡張制御方針（LSTMベース）を強化学習で訓練する。
ADR生成のシミュレーションからのレンダリング画像を用いて、視覚ベースのルービックキューブ姿勢推定を訓練する。
Shadow Dexterous Handと3DルービックキューブのMuJoCoベースの詳細なシミュレーションをモデル化して、Sim-to-Realのギャップを埋める。
パラメータ、データ、性能バッファの集中ストレージ（Redis）を備えた、分散型のADR主導トレーニングパイプラインを使用する。

実験結果

リサーチクエスチョン

RQ1ADRを用いて完全にシミュレーションで訓練されたモデルは、ヒューマノイドハンドによる現実世界でのルービックキューブの操作へ効果的に転送できるか？
RQ2ADR下でのメモリ拡張方針訓練は、現実世界での展開中に出現的メタ学習を示すか？
RQ3頑健なSim2Real転送を達成する上で、自動ドメインランダム化は手動ドメインランダム化とどのように比較されるか？
RQ4複雑な操作タスクのためにADRを支援する物理・シミュレーションプラットフォームの主要な設計上の要点は何か？

主な発見

ADRは、ルービックキューブと五指のハンドを含む複雑な操作タスクに対して、成功したSim2Real転送を可能にする。
拡大するADR分布で訓練されたメモリ拡張方針は、テスト時に出現的メタ学習の兆候を示す。
ADR下で訓練された視覚状態推定器は、現実世界のRGBカメラ映像からキューブの姿勢と面角を予測できる。
シミュレーションの現実性の体系的な拡張（手の動力学、キューブモデル、センサノイズ）が転送性能を向上させる。
専用のロボットプラットフォームと拡張可能な分散 ADRトレーニングパイプラインは、効率的な訓練と評価を支援する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。