QUICK REVIEW

[論文レビュー] Improvements and Generalizations of Stochastic Knapsack and Multi-Armed Bandit Algorithms: Full Version.

Will Ma|arXiv (Cornell University)|Jun 5, 2013

Advanced Bandit Algorithms Research被引用数 2

ひとこと要約

本稿では、マルコフ型アームと非単位遷移時間を伴うマルチアームバンディット問題に対する近似アルゴリズムを提示する。プリエンプションありでは (1/2−ϵ)-近似、プリエンプションなしでは 1/12-近似を達成し、確率的 knapsack、マルコフ型バンディット、予算付き学習の分野で先行研究を改善する。本稿は、多面体解析を用いて、新たな計算的障害を克服した。

ABSTRACT

We study the multi-armed bandit problem with arms which are Markov chains with rewards. In the finite-horizon setting, the celebrated Gittins indices do not apply, and the exact solution is intractable. We provide approximation algorithms for a more general model which includes Markov decision processes and non-unit transition times. When preemption is allowed, we provide a (1/2-eps)-approximation, along with an example showing this is tight. When preemption isn't allowed, we provide a 1/12-approximation, which improves to a 4/27-approximation when transition times are unity. Our model encompasses the Markovian Bandits model of Gupta et al, the Stochastic Knapsack model of Dean, Goemans, and Vondrak, and the Budgeted Learning model of Guha and Munagala, and our algorithms improve existing results in all three areas. In our analysis, we encounter and overcome to our knowledge a novel obstacle - an algorithm that provably exists via polyhedral arguments, but cannot be found in polynomial time.

研究の動機と目的

有限時限のマルコフ型アームと非単位遷移時間を伴うマルチアームバンディット問題に対する効率的な近似アルゴリズムの開発。
確率的 knapsack、マルコフ型バンディット、予算付き学習といった既存のモデルを、統一的な枠組みで一般化すること。
3つの分野すべてにおいて、既存の近似保証を改善すること、特にプリエンプションなしの設定での改善を重視すること。
多面体的議論により存在が保証されるが、多項式時間で計算できないという、新たな計算的障害に対処すること。

提案手法

非単位遷移時間を伴う枠組みにおいて、マルコフ決定過程、確率的 knapsack、予算付き学習を統合する一般化モデルを提案する。
新規の緩和法と丸め手法を活用し、プリエンプションありの (1/2−ϵ)-近似アルゴリズムを設計する。
慎重に構築された線形計画緩和と貪欲スケジューリングを用いて、プリエンプションなしの 1/12-近似アルゴリズムを開発する。
遷移時間が単位時間に制限される場合に、構造的性質を活用して近似比を 4/27 まで改善する。
多面体的妥当な解は存在するが、多項式時間で計算できないという、新たな計算的障壁を克服する。

実験結果

リサーチクエスチョン

RQ1有限時限のマルコフ型アームと非単位遷移時間を伴うマルチアームバンディット問題に対して、多項式時間近似アルゴリズムを設計できるか？
RQ2プリエンプションありの場合、どのような近似保証が達成可能であり、(1/2−ϵ) の境界はタイトか？
RQ3遷移時間が単位時間に制限された場合、近似比はどのように向上するか？
RQ4提案された枠組みは、確率的 knapsack や予算付き学習といった既存のモデルを統合し、改善できるか？
RQ5多面体的議論により解の存在が保証されるにもかかわらず、最適解を多項式時間で見つけることが根本的に不可能な計算的障壁は存在するか？

主な発見

プリエンプションありでは (1/2−ϵ)-近似アルゴリズムが達成され、一致する下界例によりこの境界がタイトであることが示された。
プリエンプションなしでは 1/12-近似が達成され、遷移時間が単位時間に制限される場合、4/27 まで向上する。
提案されたアルゴリズムは、確率的 knapsack、マルコフ型バンディット、予算付き学習の各モデルにおいて、既存の結果を改善した。
多面体的議論により存在が保証されるが、多項式時間で計算できないという、新たな計算的障害が同定された。
この枠組みは、不確実性下での逐次意思決定分野における3つの主要モデルを、成功裏に一般化・統合した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。