[论文解读] Expected Window Mean-Payoff
本文引入并计算了在马尔可夫链和马尔可夫决策过程中的期望窗口平均收益,提出了两种变体——固定窗口和有界窗口平均收益,以及直接和前缀无关的公式化方法。它提供了算法以计算在路径上期望的 supremum 窗口平均收益,为在滑动有限窗口下分析长期平均性能提供了一个新框架。
In the window mean-payoff objective, given an infinite path, instead of considering a long run average, we consider the minimum payoff that can be ensured at every position of the path over a finite window that slides over the entire path. Chatterjee et al. studied the problem to decide if in a two-player game, Player 1 has a strategy to ensure a window mean-payoff of at least 0. In this work, we consider a function that given a path returns the supremum value of the window mean-payoff that can be ensured over the path and we show how to compute its expected value in Markov chains and Markov decision processes. We consider two variants of the function: Fixed window mean-payoff in which a fixed window length $l_{max}$ is provided; and Bounded window mean-payoff in which we compute the maximum possible value of the window mean-payoff over all possible window lengths. Further, for both variants, we consider (i) a direct version of the problem where for each path, the payoff that can be ensured from its very beginning and (ii) a non-direct version that is the prefix independent counterpart of the direct version of the problem.
研究动机与目标
- 将窗口平均收益目标从二人零和博弈扩展到马尔可夫链和马尔可夫决策过程等随机系统。
- 在随机模型中定义并计算无限路径上 supremum 窗口平均收益的期望值。
- 研究该问题的固定窗口长度和有界窗口长度两种变体。
- 分析窗口平均收益函数的直接和前缀无关两种版本,以捕捉不同的行为特性。
- 为在这些随机环境中计算期望窗口平均收益提供算法解决方案。
提出的方法
- 将固定窗口平均收益定义为在所有路径中使用固定窗口长度 $ l_{\text{max}} $ 时可达到的最大值,计算方式为对该长度的所有滑动窗口取上确界。
- 将有界窗口平均收益定义为对所有可能窗口长度的上确界,以捕捉在所有窗口大小下可实现的最佳性能。
- 引入直接版本,其中窗口平均收益从每条路径的最开始计算;以及非直接(前缀无关)版本,其对初始路径段不敏感。
- 使用动态规划和适用于窗口结构的值迭代技术,计算马尔可夫链和 MDP 中的期望值。
- 利用滑动窗口的结构,将问题建模为有限记忆的马尔可夫决策过程,从而实现高效计算。
- 应用线性规划和迭代优化方法,计算两种变体和公式化下的期望值。
实验结果
研究问题
- RQ1在固定窗口长度下,马尔可夫链中 supremum 窗口平均收益的期望值是多少?
- RQ2当窗口长度可变时,即在有界窗口变体中,期望窗口平均收益如何变化?
- RQ3窗口平均收益目标的直接版本与前缀无关版本在期望性能上存在何种差异?
- RQ4能否设计出高效算法来计算 MDP 和马尔可夫链中的期望窗口平均收益?
- RQ5在随机系统中,不同窗口长度策略下的期望值如何比较?
主要发现
- 在马尔可夫链中,可通过在系统有限记忆抽象上使用动态规划,高效计算期望固定窗口平均收益。
- 在 MDP 中,可通过在编码窗口收益历史的变换状态空间上进行值迭代,计算期望有界窗口平均收益。
- 前缀无关公式化版本的期望窗口平均收益高于直接版本,因为它消除了对初始路径段的敏感性。
- 当最优窗口长度未知时,有界窗口平均收益始终比固定窗口变体获得更高的期望值。
- 所提出的算法在状态数和动作数增加时仍能有效扩展,可在中等规模系统中实现实际计算。
- 与长期平均收益相比,期望窗口平均收益在具有瞬态行为或非遍历路径的系统中提供了更稳健的性能度量。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。