Skip to main content
QUICK REVIEW

[論文レビュー] Imitate and Repurpose: Learning Reusable Robot Movement Skills From Human and Animal Behaviors

Steven Bohez, Saran Tunyasuvunakool|arXiv (Cornell University)|Mar 31, 2022
Robotic Locomotion and Control被引用数 20
ひとこと要約

本論文は humans と dogs の MoCap データから再利用可能なモータースキルモジュールを学習し、脚付きロボットを制御可能にする。ゼロショット模倣と、制御可能な歩行やボールのドリブルといった下流タスクを、シミュレーションから現実への転送で実現する。

ABSTRACT

We investigate the use of prior knowledge of human and animal movement to learn reusable locomotion skills for real legged robots. Our approach builds upon previous work on imitating human or dog Motion Capture (MoCap) data to learn a movement skill module. Once learned, this skill module can be reused for complex downstream tasks. Importantly, due to the prior imposed by the MoCap data, our approach does not require extensive reward engineering to produce sensible and natural looking behavior at the time of reuse. This makes it easy to create well-regularized, task-oriented controllers that are suitable for deployment on real robots. We demonstrate how our skill module can be used for imitation, and train controllable walking and ball dribbling policies for both the ANYmal quadruped and OP3 humanoid. These policies are then deployed on hardware via zero-shot simulation-to-reality transfer. Accompanying videos are available at https://bit.ly/robot-npmp.

研究の動機と目的

  • 人間/動物の動作事前情報を用いて脚付きロボットのロコモーションを改善する動機付け。
  • MoCapデータから学習され、タスクを越えて再利用できる汎用スキルモジュールの開発。
  • 正則化された自然なモーションを活用して、シミュレーションから実機へのゼロショット転送を実現。
  • 2つのロボットプラットフォームで、制御可能な歩行やボールドリブルを含む下流タスクの性能を実証。

提案手法

  • 人間または犬の MoCap データを2つのロボット(ANYmal quadruped と OP3 humanoid)へリターゲットする。
  • 未来の軌道フレームを潜在スキルへ写像するエンコーダと、潜在スキルを関節指令へ写像するデコーダを備えた、普遍的なゴール条件付き模倣ポリシーを学習。
  • 情報ボトルネックを課し、潜在空間をGaussian AR(1) priorへ正則化して、コンパクトで再利用可能なスキル空間を得る。
  • デコーダを低レベルのスキルモジュールとして再利用し、下流タスクの潜在アクションを出力するタスク固有ポリシーを訓練する。
  • ドメインおよびダイナミクスのランダム化を用いた完全にシミュレーションで訓練して、ゼロショットのシム-to-real転送を可能にする。
  • シミュレーションと実機の両方で、ゼロショット模倣と下流タスクの評価を行う。

実験結果

リサーチクエスチョン

  • RQ1MoCap由来の事前知識は、脚付きロボット制御の一般化可能な事前知識として機能し得るか。
  • RQ2単一のスキルモジュールは、幅広い MoCap 軌跡を模倣し、さまざまなタスクに再利用できるか。
  • RQ3シミュレーションで訓練されたスキルモジュールは、タスク固有の報酬設計なしで実機へ転送できるか。
  • RQ4異なる形態のロボットでも、制御可能な歩行やボールドリブルといったタスクを同じスキルモジュールがどれだけサポートできるか。

主な発見

  • スキルモジュールは、ANYmalとOP3の双方で、主要なモーションプリミティブに対して、シミュレーションと実機の両方でMoCapクリップの忠実なゼロショット模倣を可能にする。
  • 同じスキルモジュールは、方向と速度を超えて制御可能な歩行を高い追従精度で実現するよう再利用できる。
  • モジュールは、シミュレーションと実機の両方で高精度のボールドリブリングを実行でき、目標指向の四肢相互作用を示す。
  • ドメインおよびダイナミクスのランダム化に加え、AR(1) prior の安定性正則化が、堅牢なシム-to-real転送と自然なモーションスタイルをサポートする。
  • 正則化強度は模倣時のスタイルを保持し、再利用をより良くする。模倣と再利用のバランスをとるスケジュールが全体の性能を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。