[论文解读] LTL-Constrained Steady-State Policy Synthesis
本文提出了一种统一框架,用于合成马尔可夫决策过程(MDP)策略,该策略同时满足线性时序逻辑(LTL)规范、稳态频率约束,并最大化长期平均(LRA)奖励。通过利用极限确定性Büchi自动机(LDBA)编码LTL属性,并将多约束问题简化为单一多维LRA优化问题,该方法可通过单个线性规划实现高效策略合成,运行时间复杂度为多项式时间,且支持扩展至ω-正则属性和各类策略类别。
Decision-making policies for agents are often synthesized with the constraint that a formal specification of behaviour is satisfied. Here we focus on infinite-horizon properties. On the one hand, Linear Temporal Logic (LTL) is a popular example of a formalism for qualitative specifications. On the other hand, Steady-State Policy Synthesis (SSPS) has recently received considerable attention as it provides a more quantitative and more behavioural perspective on specifications, in terms of the frequency with which states are visited. Finally, rewards provide a classic framework for quantitative properties. In this paper, we study Markov decision processes (MDP) with the specification combining all these three types. The derived policy maximizes the reward among all policies ensuring the LTL specification with the given probability and adhering to the steady-state constraints. To this end, we provide a unified solution reducing the multi-type specification to a multi-dimensional long-run average reward. This is enabled by Limit-Deterministic B\"uchi Automata (LDBA), recently studied in the context of LTL model checking on MDP, and allows for an elegant solution through a simple linear programme. The algorithm also extends to the general $\omega$-regular properties and runs in time polynomial in the sizes of the MDP as well as the LDBA.
研究动机与目标
- 解决在MDP中合成同时满足LTL、稳态频率约束和长期平均奖励的异构规范的挑战。
- 提供一种通用且可扩展的解决方案,避免对MDP结构或策略类别的限制性假设。
- 将不同类型规范——定性(LTL)、行为性(稳态)和定量(LRA)——统一到单一优化框架中。
提出的方法
- 将LTL规范转换为极限确定性Büchi自动机(LDBA),以实现对接受条件的高效在线处理。
- 在原始MDP与LDBA之间构建产品MDP,以同时跟踪系统状态和自动机的进展。
- 将LTL满足条件编码为产品MDP中访问接受状态频率的约束。
- 将稳态约束建模为诱导马尔可夫链的平稳分布上的线性不等式。
- 将长期平均奖励最大化问题表述为关于平稳分布变量的多维线性规划问题。
- 将整个异构规范简化为一个可通过标准线性规划求解的单一多维LRA优化问题。
实验结果
研究问题
- RQ1能否在MDP中通过统一框架联合优化LTL、稳态频率约束和长期平均奖励?
- RQ2如何将定性、行为性和定量规范的组合简化为单一优化问题?
- RQ3此类多约束策略合成问题的计算复杂度如何?是否能够高效求解?
- RQ4该方法能否扩展至LTL以外的一般ω-正则属性?
- RQ5在框架内如何处理诸如无界内存或接受频率下降等实际限制?
主要发现
- 所提方法将多类型规范问题简化为单一多维长期平均奖励优化问题,可通过单个线性规划求解。
- 该算法的时间复杂度相对于MDP和LDBA的规模为多项式时间,支持高效计算。
- 该解法支持一般策略,无需像先前工作那样要求状态的常返性或单链假设。
- 该框架可自然扩展至多维奖励及通过ε-近似实现的帕累托最优权衡。
- 该方法可轻松添加额外约束,如接受状态或子公式的最低频率边界,且计算开销极小。
- 使用LDBA可实现比传统确定性自动机(如Rabin或parity自动机)更紧凑高效的编码,显著降低大小与复杂度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。