QUICK REVIEW

[論文レビュー] Thompson Sampling for the MNL-Bandit

Shipra Agrawal, Vashist Avadhanula|arXiv (Cornell University)|Jun 3, 2017

Advanced Bandit Algorithms Research参考文献 22被引用数 24

ひとこと要約

本稿では、未知の Multinomial Logit 選好モデルのパラメータ下で、累積報酬を最大化するために K 個のアイテムを N 個のアイテムの中から選択する MNL-Bandit 問題に対して、Thompson Sampling を用いたアルゴリズムを提案する。この手法は、置換効果を伴う組み合わせ的でバンドイットフィードバックの設定に Thompson Sampling を適応させることで、近似的に最適なレグレットバウンドを達成し、理論的レグレット最適性と優れた実験的性能を示している。

ABSTRACT

We consider a sequential subset selection problem under parameter uncertainty, where at each time step, the decision maker selects a subset of cardinality $K$ from $N$ possible items (arms), and observes a (bandit) feedback in the form of the index of one of the items in said subset, or none. Each item in the index set is ascribed a certain value (reward), and the feedback is governed by a Multinomial Logit (MNL) choice model whose parameters are a priori unknown. The objective of the decision maker is to maximize the expected cumulative rewards over a finite horizon $T$, or alternatively, minimize the regret relative to an oracle that knows the MNL parameters. We refer to this as the MNL-Bandit problem. This problem is representative of a larger family of exploration-exploitation problems that involve a combinatorial objective, and arise in several important application domains. We present an approach to adapt Thompson Sampling to this problem and show that it achieves near-optimal regret as well as attractive numerical performance.

研究の動機と目的

置換効果が存在する状況下で、パrameter の不確実性が伴う順序的な部分集合選択問題に取り組むこと。ユーザーの選好は Multinomial Logit (MNL) モデルに従う。
MNL フィードバックを伴う組み合わせ的バンディット設定において、探索と活用のバランスを効率的にとる Thompson Sampling に基づくアルゴリズムを設計すること。
行動空間のサイズが指数関数的に増大するにもかかわらず、MNL-Bandit 問題に対して近似的に最適な理論的レグレットバウンドを確立すること。
数値的実験による妥当性を示し、従来の UCB スタイルの手法に比べて実用的な利点を強調することによって、アルゴリズムの優れた数値的性能を実証すること。
標準的なマルチアームバンディットを超えて、構造的フィードバックを伴う組み合わせ最適化問題への Thompson Sampling の一般化を図ること。

提案手法

MNL パラメータの事後分布を維持し、それらからサンプリングすることで K アイテムの部分集合を選択するように、Thompson Sampling を MNL-Bandit に適応する。
ユーザーが提示されたバンドルからクリックや選択をしたという観測フィードバックに基づいて、アイテム価値の推定値をベイズ的手法で更新する。
推定誤差を制御するため、濃度不等式および尾部バウンド（例：Hoeffding 型および Chernoff 型）を用いる。
尤度関数における対数項のテイラー展開近似を用いて、推定されたアイテム価値の高確率的信頼区間を導出する。
推定値が真の値から逸脱する確率をバウンドする、革新的な解析フレームワークを導入し、これによりレグレット解析を可能にする。
各アイテムのサンプリング頻度とそれに伴う推定誤差の関係を確立し、十分な探索が保証されることを示す。

実験結果

リサーチクエスチョン

RQ1置換効果を伴う組み合わせ的アクション集合とバンディットフィードバックを持つ MNL-Bandit 問題に対して、Thompson Sampling は効果的に適応可能か？
RQ2提案された Thompson Sampling 変種の MNL-Bandit 環境下での理論的レグレット性能はいかほどか？
RQ3アイテム間の置換効果が存在する中で、このアルゴリズムは探索と活用をどのようにバランスさせるか？
RQ4N 個のアイテムの中から K 個のアイテムを選び出す組み合わせ的複雑性が存在するにもかかわらず、この手法は近似的に最適なレグレットバウンドを達成可能か？
RQ5MNL ベースの選好フィードバックを伴う組み合わせ的バンディットにおいて、Thompson Sampling を適応させるために必要な主要な構造的変更は何か？

主な発見

提案された Thompson Sampling アルゴリズムは、高確率的に O(log T) のオーダーのレグレットバウンドを達成し、対数的要因を除いて理論的下界と一致する。
任意のアイテムの価値に対する大きな推定誤差の確率が O(1/ρ^m) でバウンドされることを保証し、きめ細かな信頼区間を可能にする。
解析により、各アイテムが十分に頻繁にサンプリングされることで推定誤差が低減され、十分な探索が維持されていることが示された。
推定値と真の値の乖離に関する高確率的バウンドが得られた：Pr(|v̂_i(ℓ) − v_i| < √(16v̂_i(ℓ)(v̂_i(ℓ)+1)log(ρ+1))/n_i(ℓ)) ≥ 1 − 3/ρ^m。
推定誤差が小さい場合には、v_i ≤ 1 のとき、バウンドは Pr(|v̂_i(ℓ) − v_i| < √(12v_i log(ρ+1))/n_i(ℓ)) ≥ 1 − 3/ρ^m に簡略化される。
アルゴリズムの性能は、パrameter の異なる設定に対してもロバストであり、アイテムの価値が有界である場合でも理論的保証が成立する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。