QUICK REVIEW

[論文レビュー] A Sums-of-Squares Extension of Policy Iterations

Assalé Adjé, Pierre-Loïc Garoche|arXiv (Cornell University)|Mar 27, 2015

Formal Methods in Verification参考文献 45被引用数 4

ひとこと要約

この論文は、多項式ダイナミクスとガードを有するスイッチングシステムの正確な解析を可能にするために、和の平方（SOS）最適化を統合することで、静的解析のポリシー反復を拡張している。2次テンプレートの代わりに多項式テンプレートを用い、SOSプログラミングを適用することで、到達集合のよりタイトな上界近似を逐次計算し、非2次系に対して従来のLP/SDPベースの手法よりも精度が向上した収束を達成している。

ABSTRACT

In order to address the imprecision often introduced by widening operators in static analysis, policy iteration based on min-computations amounts to considering the characterization of reachable value set of a program as an iterative computation of policies, starting from a post-fixpoint. Computing each policy and the associated invariant relies on a sequence of numerical optimizations. While the early research efforts relied on linear programming (LP) to address linear properties of linear programs, the current state of the art is still limited to the analysis of linear programs with at most quadratic invariants, relying on semidefinite programming (SDP) solvers to compute policies, and LP solvers to refine invariants. We propose here to extend the class of programs considered through the use of Sums-of-Squares (SOS) based optimization. Our approach enables the precise analysis of switched systems with polynomial updates and guards. The analysis presented has been implemented in Matlab and applied on existing programs coming from the system control literature, improving both the range of analyzable systems and the precision of previously handled ones.

研究の動機と目的

ワイドニング作用素の不正確さを解消するため、ポリシー反復による不変量計算の精緻化を目的とする。
従来、線形または2次不変量に限定されていたポリシー反復フレームワークを、和の平方（SOS）プログラミングを用いて多項式不変量へと拡張する。
区分的多項式ダイナミクスとガードを有する離散時間スイッチングシステムにおける到達集合の健全な上界近似を可能にする。
従来の線形または2次近似が失敗するようなシステム（例：飽和付き制御系やアンチウィンドアップ付き制御系）において、精度と適用範囲を向上させる。
非線形かつ区分的多項式プログラムの有界性および安全性の検証のためのスケーラブルで収束保証のあるアルゴリズムを提供する。

提案手法

到達集合の計算を多項式テンプレート上のポリシー反復として定式化し、従来の線形または2次形式への依存を排除する。
非凸なポリシー計算を凸な半定値計画問題（SDP）の系列に緩和するために、和の平方（SOS）プログラミングを用いる。
双対性を用いた最小ポリシー反復により、ラグランジュ乗数を計算し、SOSに基づくリャプノフ関数を用いて不変量証明を導出する。
ポリシー反復ループ内での関数のSOSベースの緩和を統合し、先行研究から得られた収束保証を維持する。
YALMIPとMOSEKを用いてSOSおよびSDPソルバを実装したMATLABでアルゴリズムを実装し、∥F R(wk) − wk∥∞ ≤ 1e–6 に基づく停止基準を設定する。
テンプレートベースの抽象化を用いる：各抽象状態は多項式式（例：x²、xy、x⁴）の境界によって定義され、例ごとに次数を最適化する。

実験結果

リサーチクエスチョン

RQ1ポリシー反復は、2次不変量を越えて、スイッチングシステムにおける多項式不変量を扱うように拡張可能か？
RQ2ポリシー反復に和の平方（SOS）プログラミングを統合することで、非2次系において収束性が保たれ、精度が向上するか？
RQ3提案手法のSOSベースのポリシー反復は、従来のLP/SDPベースの手法と比較して、精度および実制御系への適用性において優れているか？
RQ4テンプレート次数の変更が、SOSポリシー反復における収束性および数値的安定性に与える影響は何か？
RQ5本手法は、非多項式または複雑なダイナミクス（例：飽和や区分的非線形性を有するシステム）を処理できるか？

主な発見

SOSによるポリシー反復の拡張は、多項式スイッチングシステム（非2次ダイナミクスを有するものも含む）の到達集合の健全な上界近似を的確に計算できた。
例6.1（3次元区分的線形系）では、6次テンプレートを用い、1反復で不動点 [3.7482, 1.8503, 1.0000] を達成した。
例6.2（2次元区分的線形系）では、10次テンプレートを用い、6反復後に上界近似を [1.8359, 1.3341] から [1.4813, 1.2544] に縮小した。
例6.3（区分的2次系）では、8次テンプレートを用い1反復で [1.5531, 1.1511] の境界を達成し、先行手法よりも高い精度を示した。
例6.4（3次多項式系）では、12次テンプレートを用い、[1.2100, 0.9989] に収束したが、より高い次数（10,12）では数値的問題が生じ、改善が得られなかった。
特定の高次テンプレート（例：例6.1および6.3における8,10,12次）では、内点法SDPソルバの数値的不安定性により収束に失敗した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。