[论文解读] Bounded Rationality in Concurrent Parity Games
本文在有界理性约束下,对并发公平游戏中的定性获胜集合提供了完整刻画,表明统一的无记忆策略与有限精度的无限记忆策略具有相同的能力,而无限精度的无记忆策略与无限精度的有限记忆策略也具有相同的能力。关键贡献是一项符号算法,其时间复杂度为 O(n²d+3),用于计算几乎必然获胜集合与极限获胜集合,且获胜集合成员资格问题可在 NP ∩ coNP 时间内判定。
We consider 2-player games played on a finite state space for infinite rounds. The games are concurrent: in each round, the two players choose their moves simultaneously; the current state and the moves determine the successor. We consider omega-regular winning conditions given as parity objectives. We consider the qualitative analysis problems: the computation of the almost-sure and limit-sure winning set of states, where player 1 can ensure to win with probability 1 and with probability arbitrarily close to 1, respectively. In general the almost-sure and limit-sure winning strategies require both infinite-memory and infinite-precision. We study the bounded-rationality problem for qualitative analysis of concurrent parity games, where the strategy set player 1 is restricted to bounded-resource strategies. In terms of precision, strategies can be deterministic, uniform, finite-precision or infinite-precision; and in terms of memory, strategies can be memoryless, finite-memory or infinite-memory. We present a precise and complete characterization of the qualitative winning sets for all combinations of classes of strategies. In particular, we show that uniform memoryless strategies are as powerful as finite-precision infinite-memory strategies, and infinite-precision memoryless strategies are as powerful as infinite-precision finite-memory strategies. We show that the winning sets can be computed in O(n^{2d+3}) time, where n is the size of the game and 2d is the number of priorities, and our algorithms are symbolic. The membership problem of whether a state belongs to a winning set can be decided in NP cap coNP. While this complexity is the same as for the simpler class of turn-based games, where in each state only one of the players has a choice of moves, our algorithms, that are obtained by characterization of the winning sets as mu-calculus formulas, are considerably more involved.
研究动机与目标
- 研究在有界理性约束下并发公平游戏中的定性分析,将策略限制在有限的内存与精度资源中。
- 确定不同策略类别(确定性、统一性、有限精度、无限精度)与无记忆、有限记忆、无限记忆策略组合下的表达能力。
- 对所有策略类别组合下的几乎必然获胜集合与极限获胜集合建立精确且完整的刻画。
- 开发高效的符号算法以计算获胜集合,且独立于精确的转移概率。
- 证明某些策略类别在获胜能力上具有行为等价性,尽管其在内存与精度上存在差异。
提出的方法
- 形式化定义具有有限状态图、同时行动与公平目标(作为 ω-正则获胜条件)的并发公平游戏。
- 定义四种类精度(确定性、统一性、有限精度、无限精度)与三类记忆(无记忆、有限记忆、无限记忆),形成 12 种策略类别组合。
- 通过前驱算子与见证构造刻画获胜集合,证明极限获胜集合可通过对任意 ε > 0 使用无记忆有限精度策略实现逼近。
- 基于为有界理性环境量身定制的 μ-演算公式,构建符号算法,其与经典并发博弈 μ-演算公式形式不同。
- 通过引理 2 的轮换制游戏转换,模拟 b-精度策略,并利用轮换制随机游戏中纯无记忆策略的已知结果。
- 通过证明获胜集合仅依赖于转移支持而非精确概率,证明其对精确转移概率的独立性。
实验结果
研究问题
- RQ1哪些记忆与精度类别组合在并发公平游戏中具有等价的表达能力?
- RQ2是否可使用有限精度无记忆策略实现极限获胜策略?其与无限精度或无限记忆策略相比如何?
- RQ3几乎必然获胜集合与极限获胜集合是否可进行符号化计算?其成员资格问题的计算复杂度如何?
- RQ4定性获胜集合是否依赖于精确的转移概率,还是仅依赖于转移的支持?
- RQ5能否设计出在有界理性约束下既高效又正确的符号算法?
主要发现
- 统一的无记忆策略在实现极限获胜方面,与有限精度的无限记忆策略具有相同的能力。
- 无限精度的无记忆策略在极限获胜方面,与无限精度的有限记忆策略具有相同的能力。
- 在无限精度无记忆策略下的极限获胜集合,等于在无限精度有限记忆策略下的极限获胜集合。
- 获胜集合的计算时间复杂度为 O(n²d+3),其中 n 为状态数,2d 为优先级数。
- 获胜集合成员资格问题可在 NP ∩ coNP 时间内判定,表明其具有高度的计算可处理性。
- 获胜集合的计算仅依赖于转移的支持,而不依赖于精确概率,因此对概率精度具有鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。