QUICK REVIEW

[論文レビュー] Neural probabilistic motor primitives for humanoid control

Josh Merel, Leonard Hasenclever|arXiv (Cornell University)|Nov 28, 2018

Motor Control and Adaptation被引用数 89

ひとこと要約

本論文はニューラル確率的モータプリミティブを提案する。オフラインで訓練されたモーターモジュールは膨大な数の専門家ヒューマノイド技能を潜在空間に圧縮し、ワンショット模倣と上位レベルのコントローラによる再利用を可能にする。オフライン転送のために、行動クローンと線形フィードバックポリシークローン（LFPC）の比較を行う。

ABSTRACT

We focus on the problem of learning a single motor module that can flexibly express a range of behaviors for the control of high-dimensional physically simulated humanoids. To do this, we propose a motor architecture that has the general structure of an inverse model with a latent-variable bottleneck. We show that it is possible to train this model entirely offline to compress thousands of expert policies and learn a motor primitive embedding space. The trained neural probabilistic motor primitive system can perform one-shot imitation of whole-body humanoid behaviors, robustly mimicking unseen trajectories. Additionally, we demonstrate that it is also straightforward to train controllers to reuse the learned motor primitive space to solve tasks, and the resulting movements are relatively naturalistic. To support the training of our model, we compare two approaches for offline policy cloning, including an experience efficient method which we call linear feedback policy cloning. We encourage readers to view a supplementary video ( https://youtu.be/CaDEf-QcKwA ) summarizing our results.

研究の動機と目的

大規模なヒューマノイド運動技能の集合を表現し生成できるモータープリミティブモジュールを開発する。
コンパクトな埋め込み空間内でワンショット模倣と技能の柔軟な再利用を可能にする。
専門家のデモンストレーションからのオフラインポリシー転送を活用して、広範なオンライン強化学習を回避する。
オフライン転送の二つの方法を比較する：行動クローンと線形フィードバックポリシークローン（LFPC）。
学習済みプリミティブの頑健性、自然さ、および未知の軌道を含むタスク間の転送可能性を示す。

提案手法

状態 s_t における潜在変数 z_t を各時刻で持つ自己回帰的潜在変数モデルを提案し、行動分布 p(a_t|s_t,z_t) を条件付ける。
短期的先読み軌道の断片 x_t をエンコードして、エンコーダ q(z_t|z_{t-1},x_t) およびデコーダ π(a_t|s_t,z_t) を訓練する。
z_t に AR(1) プリオリティを用い、時系列の整合性を促進し、β加重ELBO目的関数を介して情報を圧縮する。
監督付き学習を用いてオフラインで訓練し、オンラインRLなしでワンショット模倣を可能にする。2707クリップ。
2つのオフライン転送スキームを導入：(a) ノイズのある専門家ロールアウトからの行動クローン、(b) アクション-状態のヤコビ行列を用いた頑健な近傍状態のための線形フィードバックポリシークローン（LFPC）。
LFPC用に、尤度とKL項に摂動とヤコビ行列に基づく補正を組み込んで目的関数を適合させる。

実験結果

リサーチクエスチョン

RQ1単一のニューラル確率的モータプリミティブモジュールは何千もの専門家ヒューマノイド技能を実用的な埋め込み空間に圧縮できるか？
RQ2オフライン訓練されたプリミティブを用いて、ワンショット模倣と未知の軌道の頑健な再現を実現できるか？
RQ3データ効率と性能の観点で、オフライン転送における行動クローンとLFPCはどう比較されるか？
RQ4学習済みプリミティブは、自然な動作で新しいタスクを解決するために上位コントローラによって再利用され得るか？
RQ5潜在空間の構造は、摂動に対する頑健性と未知の挙動への一般化にどのように影響するか？

主な発見

モータープリミティブモジュールは、専門家ポリシーを何千件も学習済みの埋め込み空間に圧縮できる。
単一の軌道を用いたLFPCが、何百本の軌道を用いる行動クローンと同等の模倣性能を達成することがある。
正則化とより大きな潜在空間は、模倣性能と頑健性を改善する。
学習済みプリミティブ空間は、高レベルの方針による再利用を可能にし、人間のような動作を伴うスパース報酬タスクを解く。
潜在系列の最適化は、境界的な軌道に対するワンショット模倣を改善でき、意味のある潜在表現を示唆する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。