QUICK REVIEW

[論文レビュー] MPC-Inspired Neural Network Policies for Sequential Decision Making

Marcus A. Pereira, David D. Fan|arXiv (Cornell University)|Feb 15, 2018

Reinforcement Learning in Robotics参考文献 11被引用数 30

ひとこと要約

この論文は、連続的状態空間と連続的行動空間における逐次的意思決定のための、MPCにインspiredされたニューラルネットワーク方策、特にPI-Netsを提案する。反復的制御シーケンス最適化を扱えるようにDAggerアルゴリズムを拡張することで、干渉やモデル誤差に対して堅牢に一般化する計画認識方策の効率的かつスケーラブルな訓練が可能となり、ベンチマークタスクにおいて反応型および標準的な再帰型方策を上回る性能を発揮する。

ABSTRACT

In this paper we investigate the use of MPC-inspired neural network policies for sequential decision making. We introduce an extension to the DAgger algorithm for training such policies and show how they have improved training performance and generalization capabilities. We take advantage of this extension to show scalable and efficient training of complex planning policy architectures in continuous state and action spaces. We provide an extensive comparison of neural network policies by considering feed forward policies, recurrent policies, and recurrent policies with planning structure inspired by the Path Integral control framework. Our results suggest that MPC-type recurrent policies have better robustness to disturbances and modeling error.

研究の動機と目的

逐次的意思決定における連続的状態空間および行動空間に対するスケーラブルで一般化可能な計画方策の不足に対処すること。
PI-Netsのような複雑な計画アーキテクチャのサンプル効率および訓練スケーラビリティを向上させること。
動的システムの変動、モデル誤差、分布シフト（初期条件など）に対する耐性を高めること。
MPCエキスパートを用いたアシスト学習により、計画方策のエンドツーエンド訓練を可能にすること。
MPC型再帰型方策が、連続的制御タスクにおいて反応型および非MPC型再帰型方策を上回ることを実証すること。

提案手法

各タイムステップでMPCエキスパートから制御シーケンスを収集することで、MPCにインスパイアされた方策をDAggerアルゴリズムを拡張して訓練する。
有限区間の制御シーケンスを繰り返し再最適化する再帰型ニューラルネットワークアーキテクチャを用い、モデル予測制御（MPC）を模倣する。
経路積分（PI）制御フレームワークに基づく微分可能プランナを採用し、ロールアウト全体にわたる逆誤差伝搬を可能にする。
タイムステップ間で制御シーケンスのウォームスタートを適用することで、計算負荷を軽減し、最適化収束を改善する。
行動のみでなく、完全な制御シーケンスを含むエキスパートのデモンストレーションを用いて、アシスト学習で方策を訓練する。
効率的なシーケンス処理と最適化により、従来手法と比較して時間的・メモリ的要件を50分の1に削減する。

実験結果

リサーチクエスチョン

RQ1MPCにインスパイアされた再帰型方策は、反応型または標準的な再帰型方策と比較して、連続的制御タスクにおける一般化性能および堅牢性を向上させることができるか？
RQ2制御シーケンスを扱えるようにDAggerアルゴリズムを拡張することで、複雑な計画方策のスケーラブルで効率的な訓練が可能になるか？
RQ3PI-Nets（MPC型プランナ）は、変動するシステムの動的特性、ノイズ、初期条件の変化に対してどのように性能を発揮するか？
RQ4微分可能な計画モジュールのエンドツーエンド訓練は、連続的空間においても効率的に実現可能か？
RQ5フィードフォワード型、再帰型、MPC構造型方策の相対的性能は、連続的制御ベンチマークでどのように異なるか？

主な発見

PI-NetsはAntおよびHalf-Cheetahタスクで100%の成功確率を達成し、成功確率および平均損失の両面で他のすべての方策を上回った。
Cart-Poleタスクでは、PI-Netsは99.0%の成功確率（平均損失1±2）を達成し、反応型FNNおよび標準RNN方策を著しく上回った。
MPC-DAggerで訓練された方策は、初期条件の摂動、ノイズ、システム動的特性の変化に対しても堅牢に一般化したが、教師あり学習ベースラインは完全に失敗した。
MPC型方策（PI-Net）は優れた耐性を示し、初期状態の分散が増加しても軌道が正しく収束するのに対し、脆い反応型方策とは対照的だった。
提案されたDAgger拡張を用いた訓練により、従来手法と比較して時間的・メモリ的要件が50分の1に削減され、複雑な計画アーキテクチャのスケーラブルな訓練が可能になった。
PI-Netsは非MPC型再帰型方策よりも一般化性能が優れており、特にモデル誤差や外部干渉に対して顕著に優位であった。これは、繰り返しの再最適化が耐性を高めることを裏付けた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。