QUICK REVIEW

[論文レビュー] Probably Approximately Correct MDP Learning and Control With Temporal Logic Constraints

Jie Fu, Ufuk Topcu|arXiv (Cornell University)|Apr 28, 2014

Formal Methods in Verification参考文献 13被引用数 64

ひとこと要約

本稿では、線形時相論理（LTL）仕様を満たす確率を最大化する未知のマルコフ決定過程（MDP）における制御方策の合成を目的とした、サンプル効率的でモデルベースの強化学習アルゴリズムを提案する。反復的にMDPの遷移確率を学習し、仕様オートマトンと積MDPを構築することで、MDPサイズ、仕様オートマトンサイズ、精度／信頼パラメータに関して、多項式時間・空間・サンプル複雑性を満たす $\varepsilon$-最適方策を確率 $1-\delta$ で保証する。

ABSTRACT

We consider synthesis of control policies that maximize the probability of satisfying given temporal logic specifications in unknown, stochastic environments. We model the interaction between the system and its environment as a Markov decision process (MDP) with initially unknown transition probabilities. The solution we develop builds on the so-called model-based probably approximately correct Markov decision process (PAC-MDP) methodology. The algorithm attains an $\varepsilon$-approximately optimal policy with probability $1-δ$ using samples (i.e. observations), time and space that grow polynomially with the size of the MDP, the size of the automaton expressing the temporal logic specification, $\frac{1}{\varepsilon}$, $\frac{1}δ$ and a finite time horizon. In this approach, the system maintains a model of the initially unknown MDP, and constructs a product MDP based on its learned model and the specification automaton that expresses the temporal logic constraints. During execution, the policy is iteratively updated using observation of the transitions taken by the system. The iteration terminates in finitely many steps. With high probability, the resulting policy is such that, for any state, the difference between the probability of satisfying the specification under this policy and the optimal one is within a predefined bound.

研究の動機と目的

複雑な時相論理仕様を満たす確率を最大化する未知の確率的システムに対する制御方策の合成に取り組むこと。
強化学習に時相論理制約を組み込むために、おそらく近似的に正しい（PAC-MDP）フレームワークを拡張すること。
初期に遷移確率が未知である場合でも、有限時間内に高確率で近似的に最適な方策に収束することを保証すること。
独立同分布（i.i.d.）のサンプルを必要としない状態で、探索と活用のバランスを取ること。
問題パラメータの主な要因に関して多項式的にスケーリングする、サンプル数、時間、空間の複雑性に関する理論的保証を提供すること。

提案手法

本手法は、遷移確率が未知のMDPとしてシステムと環境の相互作用をモデル化し、観測された遷移から段階的に更新される学習済みモデルを維持する。
学習済みMDPとLTL仕様を表す決定的ラビンオートマトンの積をとることで、積MDPを構築する。
価値反復に基づく方策更新を用い、モデルの精緻化（探索）と満たし確率の最大化（活用）のバランスを取る。
信頼区間に基づく探索戦略を適用し、観測頻度から得られる高確率信頼区間を用いて遷移確率を更新する。
収束基準は、真のMDPと学習済みMDPの満たし確率の差が $\varepsilon$ 以内に保たれ、確率 $1-\delta$ で成立することを保証する。
理論的分析により、時間ステップごとの差の和を用いたテレスコピング和の議論により、学習済み方策の価値関数の誤差が最適方策に対して有界であることを示す。

実験結果

リサーチクエスチョン

RQ1未知のMDPに対して、与えられたLTL仕様を満たす確率を高確率で最大化する制御方策を合成可能か？
RQ2問題パラメータに多項式的に依存するサンプル数、時間、空間の複雑性は、その方策の学習においてどのように保証されるか？
RQ3i.i.d. データを必要としないオンライン学習において、探索と活用のバランスをどのように取ることができるか？
RQ4確率 $1-\delta$ で、得られた方策が最適方策から $\varepsilon$ 以内に収束することが保証可能か？
RQ5MDPのサイズや時相論理仕様の複雑性が増大しても、アプローチは効率的にスケーリング可能か？

主な発見

提案されたアルゴリズムは、MDPサイズ、仕様オートマトンサイズ、$1/\varepsilon$、$1/\delta$、時間枠に関して、多項式的に増加するサンプル数、時間、空間を用いて、確率 $1-\delta$ で $\varepsilon$-近似的に最適な方策を達成する。
本手法は、初期状態にかかわらず、学習済み方策と最適方策の満たし確率の差が $\varepsilon$ 以内に保たれることを保証する。
誤差バウンドは、時間ステップごとのヒット確率の累積差を用いたテレスコピング和の議論により導出され、時間ステップ全体にわたるヒット確率の差の累積が $\varepsilon$ 以内に保たれることを示す。
アルゴリズムは、遷移確率に高確率信頼区間を維持することで、モデルの更新が統計的に妥当であり、収束が保証されることを確保する。
学習と制御を1つの反復ループに統合することで、i.i.d. サンプルの必要性を回避し、リアルタイムでのオンライン導入に適している。
本手法は、PAC-MDP学習とLTL仕様合成を統合する最初のアプローチであり、方策の最適性と正しさに関する有限時間・高確率保証を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。