QUICK REVIEW

[論文レビュー] Optimal Feedback Law Recovery by Gradient-Augmented Sparse Polynomial Regression

Behzad Azmi, Dante Kalise|arXiv (Cornell University)|Jul 19, 2020

Sparse and Compressive Sensing Techniques参考文献 69被引用数 28

ひとこと要約

本稿では、非線形最適制御における高次元最適フィードバック則の回復を目的として、勾配を補完したスパース多項式回帰手法を提案する。ポントリャーギンの最大原理を用いて状態-価値-勾配データセットを生成し、LASSO回帰により双曲的クロス多項式モデルをフィッティングすることで、著しく少ない訓練サンプルで高精度なフィードバック則を達成した。勾配情報を含めることで、必要なサンプル数が90%削減されたが、非ゼロ成分が15%未満の低複雑度の制御則を維持した。

ABSTRACT

A sparse regression approach for the computation of high-dimensional optimal feedback laws arising in deterministic nonlinear control is proposed. The approach exploits the control-theoretical link between Hamilton-Jacobi-Bellman PDEs characterizing the value function of the optimal control problems, and first-order optimality conditions via Pontryagin's Maximum Principle. The latter is used as a representation formula to recover the value function and its gradient at arbitrary points in the space-time domain through the solution of a two-point boundary value problem. After generating a dataset consisting of different state-value pairs, a hyperbolic cross polynomial model for the value function is fitted using a LASSO regression. An extended set of low and high-dimensional numerical tests in nonlinear optimal control reveal that enriching the dataset with gradient information reduces the number of training samples, and that the sparse polynomial regression consistently yields a feedback law of lower complexity.

研究の動機と目的

非線形制御問題における高次元最適フィードバック則の近似に、計算的に効率的な手法を開発すること。
ハミルトニアン・ジャコビ・ベルマン偏微分方程式の次元の呪いを、スパース多項式回帰を活用することで軽減すること。
回帰データセットに勾配情報を組み込むことで、フィードバック則回復におけるサンプル効率を向上させること。
スパース性を促進するLASSO回帰により、最小限の複雑度のフィードバック則を生成すること。

提案手法

ポントリャーギンの最大原理から導かれる二点境界値問題（TPBVP）の解を用いて、状態-価値ペアとその勾配のデータセットを生成する。
TPBVPの解を表現式として用い、状態空間の任意の点における価値関数とその勾配を計算する。
高次元空間における価値関数の近似に、双曲的クロス多項式アンサッツを構築する。
LASSO回帰を適用して多項式モデルをフィッティングし、係数ベクトルのスパース性を促進することで、フィードバック則の複雑度を低減する。
回帰の精度向上とサンプル数の削減を目的として、訓練データセットに勾配情報を追加する。
次元が増加する非線形最適制御問題に対して本手法を検証し、勾配なしの標準的回帰手法と性能を比較する。

実験結果

リサーチクエスチョン

RQ1勾配を補完したデータセットは、高次元最適制御における正確なフィードバック則回復に必要な訓練サンプル数を著しく削減できるか？
RQ2勾配情報の組み込みが、価値関数への多項式近似のスパarsityと精度に与える影響は何か？
RQ3LASSOによるスパース多項式回帰は、高サンプル数手法と同等の性能を達成する低複雑度のフィードバック則を効果的に回復できるか？
RQ4標準的多項式基底と比較して、双曲的クロス多項式基底は高次元価値関数の近似において優れた性能を示すか？
RQ5PMPに基づくデータセット生成戦略は、フィードバック則合成におけるHJB偏微分方程式の直接解法をどの程度代替できるか？

主な発見

n=80の高次元テストにおいて、勾配を補完したスパース回帰は、たった70件の訓練サンプルでL²ノルムで3.56×10⁻²の検証誤差を達成した。
勾配を補完した回帰から得られたフィードバック則は、全3481成分中738成分が非ゼロであり、15%未満のスパarsityを示した。
同様の問題に対して、標準的LASSO回帰では7.46×10⁻²の高い誤差を示すために2430件のサンプルが必要だったため、勾配補完により90%のサンプル数削減が達成された。
勾配を補完したフィードバック則は、非線形制御問題において最適軌道をよく追跡し、勾配なし手法や高サンプル数手法を上回る性能を示した。
本手法により、フィードバック則の非ゼロ成分数を全成分の15%未満にまで低減し、リアルタイム実装に適した効率的な制御則を実現した。
全テストケースにおいて、軌道比較と誤差指標により確認されたように、本手法は少ないサンプル数と低い複雑度で優れた制御性能を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。