[論文レビュー] Polytopic Input Constraints in Learning-Based Optimal Control Using Neural Networks
本稿では、離散時間システムにおける多面体入力制約下での最適制御を学習するための2つの新しいニューラルネットワークベースの手法を提案する。1つ目の手法は、状態に依存する制約を満たしながら、閉形式のニューラルネットワーク勾配を用いた勾配ベース最適化により、部分最適な入力を計算するものである。2つ目の手法は、入力制約の頂点の凸結合をソフトマックス活性化されたネットワークでパラメータ化し、事前に制約を満たすことを保証する。両手法とも、理論的保証とともにより効率的で安全かつリアルタイムなモデル予測制御を可能にする。
This work considers artificial feed-forward neural networks as parametric approximators in optimal control of discrete-time systems. Two different approaches are introduced to take polytopic input constraints into account. The first approach determines (sub-)optimal inputs by the application of gradient methods. Closed-form expressions for the gradient of general neural networks with respect to their inputs are derived. The approach allows to consider state-dependent input constraints, as well as to ensure the satisfaction of state constraints by exploiting recursive reachable set computations. The second approach makes use of neural networks with softmax output units to map states into parameters, which determine (sub-)optimal inputs by a convex combination of the vertices of the input constraint set. The application of both approaches in model predictive control is discussed, and results obtained for a numerical example are used for illustration.
研究の動機と目的
- ニューラルネットワークを用いた学習ベース最適制御に多面体入力制約を組み込む課題に対処すること。
- モデル予測制御のためのリアルタイム計算を可能にしつつ、制約の満たし方を保証する手法を開発すること。
- 入力の実行可能性に関する事前保証をニューラルネットワークのアーキテクチャ設計により得ることで、事後分析や制約の緩和を回避すること。
- 到達集合の計算を用いて、状態依存の入力制約および再帰的状態制約を扱えるようにすること。
提案手法
- 入力に関してニューラルネットワークの閉形式勾配を導出し、多面体制約下での入力選択のための勾配ベース最適化を可能にする。
- 条件付き勾配法を用いて、状態に依存する多面体集合によって制約が課されたコスト関数の最小化を実行する。
- 出力が入力制約の頂点の凸結合であるニューラルネットワークアーキテクチャを提案し、ソフトマックス活性化出力を用いて実行可能性を保証する。
- ニューラルネットワークによる状態からパラメータへのマッピングを用いて、入力制約集合内に inherently ある制御入力を生成する。
- 生成された訓練データ上で逐次的動的計画法とレーベンバーグ・マーカート法を用いてニューラルネットワークを訓練する。
- 線形系を用いた数値例で両手法を検証し、標準的なモデル予測制御と性能を比較する。
実験結果
リサーチクエスチョン
- RQ1リアルタイム応用において、多面体入力制約の満たされるようにニューラルネットワークを用いて最適制御則を近似できるか。
- RQ2ニューラルネットワークの閉形式勾配を用いて、離散化に依存せずに制約付き最適化による入力選択が可能か。
- RQ3どのニューラルネットワークアーキテクチャが、入力状態に依存せず、制御入力が多面体制約集合内に留まるように保証できるか。
- RQ4モデル予測制御問題に適用した場合、提案手法の計算速度、制約満たし、部分最適性の観点での比較はどのようになるか。
- RQ5最適化が時間制約のため早期に終了した場合でも、提案手法が再帰的実行可能性および状態制約の満たしを保証できるか。
主な発見
- 勾配ベース手法は、標準のノートブック上で1イタレーションあたり約0.03秒で部分最適な制御入力を達成し、リアルタイム応用が可能であった。
- 勾配ベース手法による状態軌道および入力軌道は、最適なMPC解とほとんど区別がつかず、最小限の部分最適性であった。
- ソフトマックスベース手法は勾配法の100倍以上高速であり、制御入力生成に1ミリ秒未満で完了した。
- 両手法とも入力制約の満たしを保証しており、勾配法では再帰的到達集合計算により状態制約の遵守も追加的に保証された。
- ソフトマックスベースアーキテクチャは、入力頂点の凸結合をパラメータ化することで、事前に実行可能性を保証する形で妥当な入力を効果的に生成した。
- 数値結果から、動的計画法の連鎖における近似誤差が性能を著しく低下させないことが示され、提案手法のロバスト性が裏付けられた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。