[論文レビュー] Robust Imitation of Diverse Behaviors
本論文は、変分オートエンコーダに基づくポリシーと、条件付きGANスタイルの模倣目的を組み合わせることで、高次元のロボットシステムにおける複数の挙動に対して、堅牢で多様かつワンショットの模倣を実現する。
Deep generative models have recently shown great promise in imitation learning for motor control. Given enough data, even supervised approaches can do one-shot imitation learning; however, they are vulnerable to cascading failures when the agent trajectory diverges from the demonstrations. Compared to purely supervised methods, Generative Adversarial Imitation Learning (GAIL) can learn more robust controllers from fewer demonstrations, but is inherently mode-seeking and more difficult to train. In this paper, we show how to combine the favourable aspects of these two approaches. The base of our model is a new type of variational autoencoder on demonstration trajectories that learns semantic policy embeddings. We show that these embeddings can be learned on a 9 DoF Jaco robot arm in reaching tasks, and then smoothly interpolated with a resulting smooth interpolation of reaching behavior. Leveraging these policy representations, we develop a new version of GAIL that (1) is much more robust than the purely-supervised controller, especially with few demonstrations, and (2) avoids mode collapse, capturing many diverse behaviors when GAIL on its own does not. We demonstrate our approach on learning diverse gaits from demonstration on a 2D biped and a 62 DoF 3D humanoid in the MuJoCo physics environment.
研究の動機と目的
- VAEを用いてデモンストレーション軌跡の意味論的埋め込み空間を学習し、滑らかなポリシー補間を可能にする。
- VAEベースの埋め込みと条件付きGAN風の模倣目的を組み合わせて、脆弱性とモード崩れを解決する。
- MuJoCoでの多自由度ロボットに対して、少数のデモンストレーションから堅牢で多様な挙動模倣を実証する。
- 新規の軌道を学習済み埋め込み空間へ写像してワンショット模倣を可能にする。
- 62-DOFヒューマノイドのような高次元ボディへのスケーラビリティを示す。
提案手法
- デモンストレーション系列上で、bidirectional LSTMエンコーダと2つのデコーダ(アクションと状態ダイナミクス)を備えた変分オートエンコーダを訓練する。
- 状態と埋め込みからMLPでアクションをデコードし、次状態はWaveNetベースの状態モデルで自己回帰的にデコードする。
- 確率的VAEを用いて潜在変数 z を得て、再構成損失と p(z) へのKL発散を最小化する。
- 識別器をVAE埋め込み z で条件付けし、q(z|x)を周辺化してGAILを拡張する。
- 報酬 r(x,a|z) = -log(1 - Dψ(x,a|z)) とし、学習を安定化させるために固定されたVAE事前分布を用いてTRPOでポリシーを更新する。
- ポリシーをVAEの平均の周りで初期化するが、探索のため μθ(x,z) + μα(x,z) を中心とするガウス分布で条件付きポリシーを訓練する。
実験結果
リサーチクエスチョン
- RQ1VAEベースの埋め込み空間は、デモンストレーションから意味的に意味を持ち、補間可能な挙動カテゴリを捕捉できるのか?
- RQ2GAILをVAE埋込みで条件付けると、モード崩壊を抑制し、学習された挙動の多様性を向上させるか?
- RQ3この手法は、アーム、ウォーカー、ヒューマノイドといった異なるボディで、控えめな数のデモンストレーションからどの程度堅牢で多様なポリシーを学習できるか?
- RQ4エンコーダは新規の軌道を埋め込み空間へ写像して、効果的なワンショット模倣を実現できるか?
- RQ5この手法は62-DOFのヒューマノイドのような高次元制御問題へどれだけ拡張できるか?
主な発見
- VAEは、デモンストレーション軌跡間の滑らかなポリシー補間を可能にする構造化された埋め込み空間を学習する。
- 潜在空間での補間は、Jacoアームのタスク空間での補間に対応する。
- VAE埋め込みを用いた条件付き識別器は、純粋BCやベーシックなGAILよりも堅牢で多様な模倣を生み出す。
- 敵対的訓練は、2Dウォーカーの速度適合と多様なスタイルおよび未知の軌道に対する安定性を向上させる。
- このアプローチは高次元のヒューマノイドに対して堅牢な模倣をもたらし、非適応ベースラインと比較して転倒率を低減する。
- 経験的結果は、埋め込み空間が動作速度でクラスタリングされ、挙動間の意味のある遷移を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。