QUICK REVIEW

[論文レビュー] LTL-Constrained Steady-State Policy Synthesis

Jan Křetínský|arXiv (Cornell University)|May 31, 2021

Formal Methods in Verification被引用数 1

ひとこと要約

本稿では、線形時相論理（LTL）仕様、定常状態周波数制約、および長期間平均（LRA）報酬を同時に満たすマルコフ決定過程（MDP）方策を合成する統一的なフレームワークを提示する。LTL特性をエンコードするために限界決定的 Büchi 自動機（LDBA）を活用し、多制約問題を単一の多次元LRA最適化問題に還元することで、1つの線形計画法を用いた効率的な方策合成が可能となり、多項式時間で実行可能であり、ω-正規性の性質やさまざまな方策クラスへの拡張も可能である。

ABSTRACT

Decision-making policies for agents are often synthesized with the constraint that a formal specification of behaviour is satisfied. Here we focus on infinite-horizon properties. On the one hand, Linear Temporal Logic (LTL) is a popular example of a formalism for qualitative specifications. On the other hand, Steady-State Policy Synthesis (SSPS) has recently received considerable attention as it provides a more quantitative and more behavioural perspective on specifications, in terms of the frequency with which states are visited. Finally, rewards provide a classic framework for quantitative properties. In this paper, we study Markov decision processes (MDP) with the specification combining all these three types. The derived policy maximizes the reward among all policies ensuring the LTL specification with the given probability and adhering to the steady-state constraints. To this end, we provide a unified solution reducing the multi-type specification to a multi-dimensional long-run average reward. This is enabled by Limit-Deterministic B\"uchi Automata (LDBA), recently studied in the context of LTL model checking on MDP, and allows for an elegant solution through a simple linear programme. The algorithm also extends to the general $\omega$-regular properties and runs in time polynomial in the sizes of the MDP as well as the LDBA.

研究の動機と目的

MDPにおけるLTL、定常状態周波数制約、および長期間平均報酬を組み合わせた多様な仕様を満たす方策の合成という課題に取り組む。
MDPの構造や方策クラスに関する制限的な仮定を必要としない汎用的でスケーラブルなソリューションを提供する。
定性的（LTL）、行動的（定常状態）、定量的（LRA）という多様な仕様タイプを、1つの最適化フレームワークに統合する。

提案手法

LTL仕様を限界決定的 Büchi 自動機（LDBA）に変換し、実行時における受容条件の処理を効率化する。
元のMDPとLDBAの積MDPを構築し、システム状態と自動機の進行状況の両方を追跡する。
LTL満たし条件を、積MDPにおける受容状態への訪問頻度に関する制約としてエンコードする。
定常状態制約を、誘導されたマルコフ連鎖の定常分布に関する線形不等式としてモデル化する。
長期間平均報酬の最大化を、定常分布変数上の多次元線形計画法として定式化する。
包括的な多様な仕様を、標準的な線形計画法で解ける単一の多次元LRA最適化問題に還元する。

実験結果

リサーチクエスチョン

RQ1LTL、定常状態周波数制約、および長期間平均報酬を、統一フレームワークを用いてMDPで同時に最適化できるか？
RQ2定性的、行動的、定量的仕様の組み合わせを、1つの最適化問題にどのように還元できるか？
RQ3このような多制約方策合成問題の計算複雑度は何か？また、効率的に解けるか？
RQ4本アプローチは、LTLを超えた一般のω-正規性の性質へ拡張可能か？
RQ5無限記憶や受容頻度の低下といった実用的制限は、このフレームワーク内でどのように扱えるか？

主な発見

提案手法により、多様なタイプの仕様問題が1つの多次元長期間平均報酬最適化問題に還元され、1つの線形計画法で解ける。
アルゴリズムはMDPとLDBAのサイズに関して多項式時間で実行可能であり、計算が効率的である。
先行研究とは異なり、再帰性やユニチェーン仮定を必要としない一般方策をサポートする。
ε-近似を用いることで、多次元報酬およびパレート最適なトレードオフへの自然な拡張が可能である。
受容状態や部分論理式に対する最小頻度バインドなどの追加制約を、最小限の計算コストで組み込むことができる。
LDBAの使用により、ラビンやパリティのような従来の決定的自動機よりもよりコンactかつ効率的なエンコードが可能となり、サイズと複雑度の両方を低減する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。