[论文解读] On the Complexity of Reachability in Parametric Markov Decision Processes
本文確立了參數化馬爾可夫決策過程(pMDPs)中可達性合成的計算複雜度,顯示具有惡魔式非確定性與非嚴格比較運算子的pMDPs為ETR完全問題,而具有嚴格運算子者則為NP難問題。論文提出新型編碼技術,利用多項式不等式與基於排序的狀態排序方法,以建模所有調度策略下的可達機率,進而實現精確的參數合成,並在不同參數域與非確定性語義下提供形式化的複雜度保證。
This paper studies parametric Markov decision processes (pMDPs), an extension to Markov decision processes (MDPs) where transitions probabilities are described by polynomials over a finite set of parameters. Fixing values for all parameters yields MDPs. In particular, this paper studies the complexity of finding values for these parameters such that the induced MDP satisfies some reachability constraints. We discuss different variants depending on the comparison operator in the constraints and the domain of the parameter values. We improve all known lower bounds for this problem, and notably provide ETR-completeness results for distinct variants of this problem. Furthermore, we provide insights in the functions describing the induced reachability probabilities, and how pMDPs generalise concurrent stochastic reachability games.
研究动机与目标
- 確定在pMDPs中合成參數值的計算複雜度,使得可達性約束得以滿足。
- 分析不同比較運算子(嚴格與非嚴格)與參數域(圖形保持與良好定義)如何影響可達性合成的複雜度。
- 發展形式化編碼,以精確捕捉所有調度策略下的可達機率,包括良好定義與圖形保持的參數實例化。
- 將pMDPs推廣至並發隨機博弈,並建立與穩健調度策略合成的關聯。
- 透過pMC參數合成與控制器合成之間的等價性,改善POMDP中有限狀態控制器合成的複雜度界限。
提出的方法
- 提出一種新型pMDP可達性編碼,使用輔助變數vs、ps與rs,以建模可達機率與至目標狀態的狀態接近程度。
- 利用rs變數以防止循環推理,透過強制路徑排序朝向目標狀態嚴格遞增。
- 採用多項式不等式來編碼所有調度策略下的可達性約束,區分惡魔式與天神式非確定性。
- 針對圖形保持與良好定義的參數實例化提出獨立編碼,處理在參數賦值下消失的轉移。
- 利用ETR(存在性實數理論)形式化來捕捉參數合成問題的完整解空間。
- 重用並擴展來自POMDP控制器合成與無參數MDP中反例生成的技術,以建模路徑存在性與機率界限。
实验结果
研究问题
- RQ1在pMDPs中合成參數值的計算複雜度為何,使得所有調度策略下的可達機率超過給定閾值?
- RQ2參數合成的複雜度如何隨比較運算子的選擇(嚴格與非嚴格)與參數域(圖形保持與良好定義)而變化?
- RQ3能否使用多項式不等式編碼來精確表徵在pMDPs中引發期望可達機率的參數值集合?
- RQ4pMDPs如何推廣為並發隨機可達性博弈?此關聯帶來何種複雜度洞察?
- RQ5POMDP中有限狀態控制器合成的複雜度界限為何?與先前結果相比有何改進?
主要发现
- 本文確立了具有惡魔式非確定性的pMDPs與非嚴格比較運算子的ETR完全性,解決了一個長期懸而未決的開放問題。
- 對於具有天神式非確定性的pMDPs,合成問題的複雜度被證明與其對應的pMC問題等價。
- 證明了具有嚴格比較運算子的pMCs為NP難問題,改善了先前的下界。
- 對於具有固定參數數量的pMDPs,無論是天神式或惡魔式非確定性,均確立了統一的NP上界。
- 本文提供了pMDP參數合成與POMDP中有限狀態控制器合成之間的正式連結,改善了記憶受限策略的複雜度界限。
- 所提出的編碼技術,結合基於排序的狀態排序與布林路徑存在性變數(ps),即使在良好定義的參數實例化下,也能實現對所有調度策略下可達性的精確ETR表徵。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。