QUICK REVIEW

[論文レビュー] Bandits with concave rewards and convex knapsacks

Shipra Agrawal, Nikhil R. Devanur|arXiv (Cornell University)|Feb 24, 2014

Advanced Bandit Algorithms Research参考文献 17被引用数 24

ひとこと要約

本稿では、任意の凹関数報酬と時間的凸リソース制約をサポートする、マルチアームバンディットの一般化であるBandits with Convex Knapsacks and Concave Rewards (BwCR) を導入する。自然なUCBアルゴリズムの拡張が、Bandits with Knapsacks (BwK) における先行研究の最良結果に匹敵する近似的最適なレグレットバウンドを達成することを示している。同時に、Frank-WolfeおよびBlackwell到達可能性との関連を介して、計算的に効率的なアルゴリズムも提供する。

ABSTRACT

In this paper, we consider a very general model for exploration-exploitation tradeoff which allows arbitrary concave rewards and convex constraints on the decisions across time, in addition to the customary limitation on the time horizon. This model subsumes the classic multi-armed bandit (MAB) model, and the Bandits with Knapsacks (BwK) model of Badanidiyuru et al.[2013]. We also consider an extension of this model to allow linear contexts, similar to the linear contextual extension of the MAB model. We demonstrate that a natural and simple extension of the UCB family of algorithms for MAB provides a polynomial time algorithm that has near-optimal regret guarantees for this substantially more general model, and matches the bounds provided by Badanidiyuru et al.[2013] for the special case of BwK, which is quite surprising. We also provide computationally more efficient algorithms by establishing interesting connections between this problem and other well studied problems/algorithms such as the Blackwell approachability problem, online convex optimization, and the Frank-Wolfe technique for convex optimization. We give examples of several concrete applications, where this more general model of bandits allows for richer and/or more efficient formulations of the problem.

研究の動機と目的

古典的なマルチアームバンディットおよびBandits with Knapsacks (BwK) モデルを一般化し、任意の凹関数報酬とリソース消費における凸制約を許容すること。
単純なUCBアルゴリズム族の拡張が、この一般化された設定においても近似的最適なレグレットを達成することを示すこと。BwKにおける先行研究のバウンドにすら一致することを確認する。
オンライン凸最適化、Frank-Wolfe、Blackwell到達可能性といった既存の問題との関連を活用し、計算的に効率的なアルゴリズムを開発すること。
提案されたフレームワークが、広告、クラウドソーシング、ネットワークルーティングなどの応用分野において、より豊かで効率的なモデリングを可能にすること。

提案手法

意思決定がベクトル出力をもたらすバンドイットモデルを提案し、平均ベクトルが凸集合内に収まるように保証するとともに、凹関数の目的関数を最大化することを目的とする。
報酬ベクトルと制約ベクトルの両方の信頼区間を組み込んだ、双対最適化フレームワークを用いてUCBアルゴリズムを拡張する。
オンライン凸最適化と凸解析の技術を用いてレグレットバウンドを導出し、問題依存の最適性を示す。
内側の最適化を効率的に行うための、Frank-Wolfe法に基づくプライマルアルゴリズムを構築する。
問題をBlackwell到達可能性に還元し、それをオンライン凸最適化によって解くことで、双対アルゴリズムを構築する。
プライマルと双対のアプローチを組み合わせ、各ステップで単体上に追加の線形制約を課した線形計画問題を効率的に解く計算効率の高いアルゴリズムを導出する。

実験結果

リサーチクエスチョン

RQ1凹関数報酬と凸制約を伴う一般バンドイットモデルにおいて、UCBアルゴリズムの単純な拡張が近的最適なレグレットを達成できるか？
RQ2拡張されたUCBアルゴリズムのレグレット性能は、Bandits with Knapsacks (BwK) における先行研究の最良アルゴリズムと比べてどうか？
RQ3BwCRとオンライン凸最適化やFrank-Wolfe法といったよく知られた問題との間にどのような関連性があるか？
RQ4各ステップで複雑な凸計画問題を解かずに、効率的で多項式時間のアルゴリズムをBwCR用に設計できるか？
RQ5BwCRフレームワークは、既存のモデルと比較して、どのような応用分野でより表現力豊かで効率的なモデリングを可能にするか？

主な発見

拡張されたUCBアルゴリズムは、BadanidiyuruらがBwK問題に対して確立した問題依存の下界と上界に一致するレグレットバウンドを達成しており、BwCRモデルの一般性にもかかわらず成立している。
Frank-Wolfeに基づくプライマルアルゴリズムは、各ステップで線形最適化のサブプロブレムを解くことで、高価な凸最適化を回避し、計算を効率化している。
Blackwell到達可能性に基づく双対アルゴリズムは、BwKの特殊ケースにおいてBadanidiyuruらのPD-BwKアルゴリズムと等価であることが示され、正しさが裏付けられている。
効率的アルゴリズム（アルゴリズム6）は、各ステップで単体上に1つの追加線形制約を課した線形計画問題を解く必要があるが、元の凸計画問題を解くよりもはるかに効率的である。
どのアームも選択しないことが許容される設定では、アルゴリズムはグリーディな分数ナップサックルールに簡略化され、クリック課金広告などの応用において実用的である。
このフレームワークは、古典的なMABとBwKを包含しており、センサーネットワーク、クラウドソーシング、ネットワークルーティングなどの分野で、より豊かなモデリングを可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。