Skip to main content
QUICK REVIEW

[论文解读] Testing Indexability and Computing Whittle and Gittins Index in Subcubic Time

Nicolas Gast, Bruno Gaujal|arXiv (Cornell University)|Mar 10, 2022
Advanced Bandit Algorithms Research被引用 1
一句话总结

本文提出了首个用于计算非齐次多臂伯努利 bandit 问题中 Whittle 和 Gittins 指数的亚立方时间算法,通过递归指数计算结合 Sherman-Morrison 公式与优化的矩阵运算,实现 O(n^2.5286) 的时间复杂度。该方法可在折扣与非折扣设定下,高效地进行指数可索引性测试与指数计算,适用于有限状态的马尔可夫性臂,实际运行时间在数千状态规模下仅需数秒。

ABSTRACT

Whittle index is a generalization of Gittins index that provides very efficient allocation rules for restless multi-armed bandits. In this work, we develop an algorithm to test the indexability and compute the Whittle indices of any finite-state restless bandit arm. This algorithm works in the discounted and non-discounted cases, and can compute Gittins index. Our algorithm builds on three tools: (1) a careful characterization of Whittle index that allows one to compute recursively the kth smallest index from the $(k - 1)$th smallest, and to test indexability, (2) the use of the Sherman-Morrison formula to make this recursive computation efficient, and (3) a sporadic use of the fastest matrix inversion and multiplication methods to obtain a subcubic complexity. We show that an efficient use of the Sherman-Morrison formula leads to an algorithm that computes Whittle index in $(2/3)n^3 + o(n^3)$ arithmetic operations, where $n$ is the number of states of the arm. The careful use of fast matrix multiplication leads to the first subcubic algorithm to compute Whittle or Gittins index: By using the current fastest matrix multiplication, the theoretical complexity of our algorithm is O(n^2.5286 ). We also develop an efficient implementation of our algorithm that can compute indices of Markov chains with several thousands of states in less than a few seconds.

研究动机与目标

  • 开发一种高效算法,用于测试非齐次 bandit 问题中 Whittle 和 Gittins 指数的可索引性并进行计算。
  • 实现指数计算的亚立方时间复杂度,突破先前方法的 (2/3)n³ + o(n³) 上限。
  • 统一处理折扣与非折扣情形,包括时间平均奖励设定。
  • 实现在数千状态规模的马尔可夫链上,指数计算在数秒内完成的实用性能。
  • 提供一种稳健且可实现的框架,避免对严格可索引性条件的依赖。

提出的方法

  • 利用 Whittle 指数的递归表征,从第 (k−1) 个指数递推计算第 k 个最小指数,实现增量式计算。
  • 采用 Sherman-Morrison 公式,在递归指数计算过程中高效更新逆矩阵,降低每一步的计算成本。
  • 提出一种基于横向计算(通过子程序 3)的新颖矩阵更新策略,而非完整矩阵更新,从而实现亚立方时间复杂度。
  • 利用目前已知最快的矩阵乘法算法(如基于 Coppersmith-Winograd 的方法),实现 O(n^2.5286) 的理论时间复杂度。
  • 在实现中优化内存使用并避免冗余计算,尤其针对大规模状态系统。
  • 将主动优势函数与平均奖励公式适配至非折扣情形,与以往仅限于折扣模型的方法形成差异。

实验结果

研究问题

  • RQ1Whittle 指数计算能否在亚立方时间内完成,从而突破先前方法的 (2/3)n³ + o(n³) 限制?
  • RQ2是否可能在折扣与非折扣的非齐次 bandit 模型中,高效地测试可索引性并计算 Whittle 指数?
  • RQ3使用 Sherman-Morrison 公式是否能实现一种递归且高效的更新策略,从而支持亚立方时间复杂度?
  • RQ4快速矩阵乘法能否被有效集成到指数计算流水线中,以实现理论上的亚立方性能?
  • RQ5与现有方法(如 fast-pivoting 和 adaptive-greedy 算法)相比,所提算法在实际表现中如何?

主要发现

  • 所提算法通过结合递归指数计算与快速矩阵乘法,实现 O(n^2.5286) 的理论时间复杂度,成为首个 Whittle 与 Gittins 指数计算的亚立方时间算法。
  • 当使用标准矩阵求逆时,该算法在 (2/3)n³ + o(n³) 次算术运算内完成 Whittle 指数计算,与先前最优方法在该场景下性能持平。
  • 通过重新定义矩阵更新策略,采用横向更新(通过子程序 3),该算法实现亚立方时间复杂度,而此前方法依赖完整矩阵更新,无法实现此目标。
  • 实现代码可在数秒内高效计算出数千状态马尔可夫链的指数,展现出良好的实际可扩展性。
  • 该方法通过平均奖励与主动优势函数的引入,推广至非折扣情形,克服了以往仅关注折扣模型的局限性。
  • 该算法避免对严格可索引性条件的依赖,为有限状态臂的可索引性测试与指数计算提供了通用解决方案。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。