Skip to main content
QUICK REVIEW

[論文レビュー] Robust Locally-Linear Controllable Embedding

Ershad Banijamali, Rui Shu|arXiv (Cornell University)|Oct 15, 2017
Model Reduction and Neural Networks参考文献 12被引用数 25
ひとこと要約

本稿では、ロバストで局所線形な制御を可能にする新規モデルであるRobust Locally-Linear Controllable Embedding (RCE) を提案する。RCEは、ボトルネック付きの生成モデルと構造的ダイナミクスを用いて、直接的に予測条件付き密度 $ p(\mathbf{x}_{t+1}|\mathbf{x}_t) $ を推定する。E2Cとは異なり、RCEは将来の観測を条件とする変分推論スキームを採用しており、近似誤差を低減し、ノイジーなダイナミクス下でも顕著に性能を向上させる。

ABSTRACT

Embed-to-control (E2C) is a model for solving high-dimensional optimal control problems by combining variational auto-encoders with locally-optimal controllers. However, the E2C model suffers from two major drawbacks: 1) its objective function does not correspond to the likelihood of the data sequence and 2) the variational encoder used for embedding typically has large variational approximation error, especially when there is noise in the system dynamics. In this paper, we present a new model for learning robust locally-linear controllable embedding (RCE). Our model directly estimates the predictive conditional density of the future observation given the current one, while introducing the bottleneck between the current and future observations. Although the bottleneck provides a natural embedding candidate for control, our RCE model introduces additional specific structures in the generative graphical model so that the model dynamics can be robustly linearized. We also propose a principled variational approximation of the embedding posterior that takes the future observation into account, and thus, makes the variational approximation more robust against the noise. Experimental results show that RCE outperforms the E2C model, and does so significantly when the underlying dynamics is noisy.

研究の動機と目的

  • E2Cの統計的欠陥(尤度ベースの目的関数がなく、非ロバストな変分近似を用いる)を是正すること。
  • 高次元観測空間においてロバストで局所線形な制御を可能にする低次元埋め込みを学習する原理的かつ整合的な手法を開発すること。
  • 生成モデルに線形化点を確率的変数として明示的にモデル化することで、構造的で局所線形なダイナミクスを実現すること。
  • 将来の観測を条件とする変分推論フレームワークを設計し、事後分布近似誤差を低減すること。
  • システムダイナミクスのノイズに対してロバストであると同時に、iLQGなどの既存の局所最適制御アルゴリズムと互換性を保つこと。

提案手法

  • BCDEにインspiredされたボトルネック付きのグラフィカルモデルを用い、潜在変数 $ \mathbf{z}_t $ を介して予測条件付き密度 $ p(\mathbf{x}_{t+1}|\mathbf{x}_t) $ をモデル化する。
  • 生成モデルにおいて局所線形化点を確率的変数として扱い、構造的で局所線形なダイナミクスを強制する。
  • 将来の観測 $ \mathbf{x}_{t+1} $ を明示的に条件とする変分事後分布 $ q(\mathbf{z}_t|\mathbf{x}_t, \mathbf{x}_{t+1}) $ を構築し、近似精度を向上させる。
  • 全系列を考慮したデータ尤度の変分下界を最適化し、ペアワイズ周辺分布のみに依存するのではなく、より包括的な尤度を捉える。
  • 生成モデルと認識モデルを分離することで、モジュラーなトレーニングとより良い一般化性能を実現する。
  • 遷移ダイナミクスの決定論的性質を活用した因子化認識モデルを採用し、推論効率を向上させる。

実験結果

リサーチクエスチョン

  • RQ1予測条件付き密度 $ p(\mathbf{x}_{t+1}|\mathbf{x}_t) $ を直接推定するモデルが、高次元でノイジーな環境下でE2Cを上回る制御性能を達成できるか?
  • RQ2将来の観測を条件とする変分事後分布が、変分近似誤差を低減し、システムノイズに対してロバスト性を向上させるか?
  • RQ3生成モデルにおける線形化点の構造的モデリングが、より正確で安定した局所線形制御を可能にするか?
  • RQ4複数の制御ベンチマークにおいて、RCEの再構成性能、予測性能、計画性能がE2Cと比べてどのように異なるか?
  • RQ5生成モデルと認識モデルの分離が、複雑な制御タスクにおけるトレーニング安定性と性能向上に寄与するか?

主な発見

  • RCEは、全ベンチマークでE2Cを著しく上回る計画損失を達成し、特にノイジーなダイナミクス下で顕著な優位性を示す:インバーテッドペンドルタスクでは61.1±16.2 vs. 97.1±34.1。
  • カートポールバランスタスクでは、RCEはノイズ下で90%の成功確率を達成したのに対し、E2Cは60%にとどまり、予測損失および計画損失も低かった。
  • 3リンクロボットアームでは、RCEはノイズなし条件下で90%、ノイズあり条件下で80%の成功確率を維持したのに対し、E2Cは65%に低下した。
  • 高次元視覚制御タスクにおいて、RCEは再構成損失および予測損失をE2Cと比較して最大30%まで低減した。
  • ノイズ下でモデルの性能差が拡大する傾向にあり、RCEの将来条件付き変分推論がノイズ由来の近似誤差を効果的に低減していることが示された。
  • 生成モデリングとアンモラライズド推論の明確な分離により、RCEはより良い一般化性能とロバスト性を発揮し、安定したトレーニングと向上した制御ポリシー学習を可能にした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。