QUICK REVIEW

[论文解读] Improvements and Generalizations of Stochastic Knapsack and Multi-Armed Bandit Algorithms: Full Version.

Will Ma|arXiv (Cornell University)|Jun 5, 2013

Advanced Bandit Algorithms Research被引用 2

一句话总结

本文针对具有馬氏性臂和非單位轉移時間的多臂賭博機問題，提出了近似演算法，在可搶佔情況下實現 (1/2−ϵ)-近似，在不可搶佔情況下實現 1/12-近似——在隨機 knapsack、馬氏性賭博機和預預算學習領域中均優於先前結果。透過多面體分析，克服了一項新穎的計算障礙。

ABSTRACT

We study the multi-armed bandit problem with arms which are Markov chains with rewards. In the finite-horizon setting, the celebrated Gittins indices do not apply, and the exact solution is intractable. We provide approximation algorithms for a more general model which includes Markov decision processes and non-unit transition times. When preemption is allowed, we provide a (1/2-eps)-approximation, along with an example showing this is tight. When preemption isn't allowed, we provide a 1/12-approximation, which improves to a 4/27-approximation when transition times are unity. Our model encompasses the Markovian Bandits model of Gupta et al, the Stochastic Knapsack model of Dean, Goemans, and Vondrak, and the Budgeted Learning model of Guha and Munagala, and our algorithms improve existing results in all three areas. In our analysis, we encounter and overcome to our knowledge a novel obstacle - an algorithm that provably exists via polyhedral arguments, but cannot be found in polynomial time.

研究动机与目标

為具有馬氏性臂和非單位轉移時間的有限時 horizon 多臂賭博機問題，設計高效的近似演算法。
在統一框架下推廣現有模型，包括隨機 knapsack、馬氏性賭博機和預預算學習。
在上述三個領域中，改善現有近似保證，特別是在不可搶佔情境下。
解決一項新穎的計算障礙：儘管透過多面體論證可證明存在明確最佳解，但該解無法在多項式時間內計算得出。

提出的方法

提出一個通用模型，將馬爾可夫決策過程、隨機 knapsack 和預預算學習統一於具備非單位轉移時間的單一框架下。
透過引入一種新穎的放鬆與取整技術，在可搶佔情況下設計出 (1/2−ϵ)-近似演算法。
透過精心構建的線性規劃放鬆與貪心排程策略，設計出不可搶佔情況下的 1/12-近似演算法。
當轉移時間為單位時間時，將近似比提升至 4/27，藉由利用單位時間轉移的結構特性。
克服一項新穎的計算障礙：多面體上有效的解存在，但無法在多項式時間內計算得出。

实验结果

研究问题

RQ1我們能否為具有馬氏性臂和非單位轉移時間的有限時 horizon 多臂賭博機問題，設計出多項式時間近似演算法？
RQ2在可搶佔情況下，可達成何種近似保證？(1/2−ϵ) 界是否緊緻？
RQ3當轉移時間被限制為單位時間時，近似比如何改善？
RQ4所提出的框架能否統合並改進現有模型，如隨機 knapsack 和預預算學習？
RQ5是否存在一個根本性的計算障礙，使得即使透過多面體論證可證明最佳解存在，仍無法在多項式時間內找到？

主要发现

在可搶佔情況下，達成 (1/2−ϵ)-近似演算法，且該界透過匹配的下界範例被證明為緊緻。
在不可搶佔情況下，達成 1/12-近似，當轉移時間為單位時間時，提升至 4/27。
所提出的演算法在隨機 knapsack、馬氏性賭博機和預預算學習模型中，均優於既有結果。
識別出一項新穎的計算障礙：透過多面體論證可證明解存在，但無法在多項式時間內計算。
該框架成功地統合並推廣了三種主要的不確定性環境下序貫決策模型。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。