Skip to main content
QUICK REVIEW

[论文解读] A Symbolic SAT-based Algorithm for Almost-sure Reachability with Small Strategies in POMDPs

Krishnendu Chatterjee, Martin Chmelík|arXiv (Cornell University)|Jan 1, 2015
Formal Methods in Verification参考文献 41被引用 24
一句话总结

本文提出了一种基于符号SAT的算法,用于在POMDP中求解小内存策略下的几乎必然可达性问题。通过将问题编码为命题逻辑并利用高效的SAT求解器,该方法相比显式方法在可扩展性上显著提升,能够在大规模POMDP实例中以极低的内存使用实现几乎必然可达性的验证。

ABSTRACT

POMDPs are standard models for probabilistic planning problems, where an agent interacts with an uncertain environment. We study the problem of almost-sure reachability, where given a set of target states, the question is to decide whether there is a policy to ensure that the target set is reached with probability 1 (almost-surely). While in general the problem is EXPTIME-complete, in many practical cases policies with a small amount of memory suffice. Moreover, the existing solution to the problem is explicit, which first requires to construct explicitly an exponential reduction to a belief-support MDP. In this work, we first study the existence of observation-stationary strategies, which is NP-complete, and then small-memory strategies. We present a symbolic algorithm by an efficient encoding to SAT and using a SAT solver for the problem. We report experimental results demonstrating the scalability of our symbolic (SAT-based) approach.

研究动机与目标

  • 解决显式方法在POMDP中几乎必然可达性问题上的可扩展性限制,后者需要指数级构建信念支持MDP。
  • 实现小内存策略(如观测平稳或有界记忆)的合成,以满足实际应用中的需求。
  • 开发一种符号化、基于SAT的求解方法,避免显式构建状态空间,使可扩展性远超以往方法,适用于更大规模的POMDP实例。
  • 证明SAT求解器的改进可直接提升定性POMDP问题的求解效率,支持增量与可并行求解。
  • 提供一种实用且可扩展的替代方案,将EXPTIME完全的显式构造问题转化为高效编码的SAT问题。

提出的方法

  • 使用符号化、紧凑的编码方式,将POMDP中的几乎必然可达性问题转化为布尔可满足性(SAT)问题。
  • 在最坏情况下,变量数量为二次方,子句数量为三次方,显著优于朴素的四次方编码。
  • 通过逐步编码路径长度,支持增量SAT求解,从而高效搜索最小内存策略。
  • 将SAT编码扩展至支持有界记忆(µ个状态)的策略,实现小内存获胜策略的合成。
  • 利用最先进的SAT求解器求解编码后的公式,避免显式构建信念MDP。
  • 集成增量求解机制,高效搜索实现几乎必然可达性所需的最小内存大小。

实验结果

研究问题

  • RQ1能否在不显式构建信念支持MDP的前提下,符号化求解POMDP中的几乎必然可达性问题?
  • RQ2寻找观测平稳(无记忆)策略以实现几乎必然可达性的复杂度如何?能否高效求解?
  • RQ3能否通过基于SAT的编码,高效合成具有有界记忆的小内存策略以实现几乎必然可达性?
  • RQ4在真实POMDP实例中,基于SAT的方法与显式构造方法的性能相比如何?
  • RQ5增量SAT求解在提升寻找最小内存获胜策略效率方面的效果有多大?

主要发现

  • 在POMDP中寻找观测平稳策略以实现几乎必然可达性的问题为NP完全问题,支持高效的SAT编码。
  • 所提出的SAT编码在实践中使用二次方数量的变量和三次方数量的子句,显著优于朴素的四次方编码。
  • 基于SAT的方法成功扩展至包含最多39,273个状态的POMDP实例(如29×20走廊环境),而显式方法在30分钟内超时。
  • 在Escape POMDP实例中,SAT求解器在10分钟内找到具有5个记忆状态的获胜策略,而显式方法在12×12网格后即无法扩展。
  • 在包含最多25,173个状态的RockSample实例中,基于SAT的方法在80秒内求解,而显式方法在更小实例上即耗时超过3分钟。
  • SAT求解的内存使用被限制在5.6 GB以内,而显式方法消耗约30 GB内存,且在更大实例上超时。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。