QUICK REVIEW

[論文レビュー] Stochastic Bandit Models for Delayed Conversions

Claire Vernade, Olivier Cappé|arXiv (Cornell University)|Jun 28, 2017

Advanced Bandit Algorithms Research参考文献 7被引用数 27

ひとこと要約

本稿は、オンライン広告における遅延するコンバージョンを想定した確率的マルチアームバンディットフレームワークを提案する。報酬は未知の確率的遅延を伴って到着する。2つの効率的なアルゴリズム、d-UCB および d-KLUCB を導入し、ポisson化を用いて遮断されたフィードバックに対処する楽観的インデックス方策を採用することで、低コンバージョンレート下でもほぼ最適なリグレットを達成する。

ABSTRACT

Online advertising and product recommendation are important domains of applications for multi-armed bandit methods. In these fields, the reward that is immediately available is most often only a proxy for the actual outcome of interest, which we refer to as a conversion. For instance, in web advertising, clicks can be observed within a few seconds after an ad display but the corresponding sale --if any-- will take hours, if not days to happen. This paper proposes and investigates a new stochas-tic multi-armed bandit model in the framework proposed by Chapelle (2014) --based on empirical studies in the field of web advertising-- in which each action may trigger a future reward that will then happen with a stochas-tic delay. We assume that the probability of conversion associated with each action is unknown while the distribution of the conversion delay is known, distinguishing between the (idealized) case where the conversion events may be observed whatever their delay and the more realistic setting in which late conversions are censored. We provide performance lower bounds as well as two simple but efficient algorithms based on the UCB and KLUCB frameworks. The latter algorithm, which is preferable when conversion rates are low, is based on a Poissonization argument, of independent interest in other settings where aggregation of Bernoulli observations with different success probabilities is required.

研究の動機と目的

コンバージョンフィードバックが遅延し、かつ遮断される状況下で、オンライン広告における最適な行動を学ぶ課題に対処すること。
遅延分布は既知であるが、各アームのコンバージョン確率は未知であるとモデル化し、実世界のウェブ広告データを反映する。
長時間の遅延による未観測（遮断された）コンバージョンを考慮した、効率的かついつでも適用可能なバンディットアルゴリズムの開発。
理論的性能バウンドを提供し、実験的に提案されたアルゴリズムが、遅延フィードバックを無視するような単純なヒューリスティクスよりも優れていることを検証すること。

提案手法

各アームプルがベルヌーイ分布に従うコンバージョンと、独立した確率的遅延（既知の分布）を引き起こす確率的バンディットモデルを形式化する。
2つの設定を導入：遮断なし（すべてのコンバージョンが最終的に観測される）と遮断あり（固定ウィンドウ m 以内にフィードバックが失われる）。
UCB および KL-ダイバージェンスに基づく楽観的インデックスを用いて、探索と活用のバランスを図る d-UCB および d-KLUCB アルゴリズムを設計する。
KLUCB 変種において、成功確率が異なるベルヌーイ観測値を効率的に集約するために、ポアソン化の考え方を適用する。
幾何分布に従う遅延仮定下で、過去のプル回数の重み付きカウント（例：$ O_k(t+1) riangleq \lambda O_k(t) + \mathds{1}\{A_t = k\} $）を再帰的に更新するスキームを用いて、計算効率を維持する。
遅延が幾何分布に従う場合、スライディングウィンドウおよびバッファを用いたメモリ効率の良いバージョンを実装する。

実験結果

リサーチクエスチョン

RQ1遅いコンバージョンが観測されない遮断フィードバックが、遅延コンバージョン設定下でのバンディットアルゴリズムのリグレットに与える影響は何か？
RQ2UCB や KLUCB のような楽観的インデックス方策は、分布が既知で無限大の確率的遅延に対しても適応可能か？
RQ3遮断ありおよび遮断なしの遅延フィードバック下で、バンディットアルゴリズムの根本的性能限界（下界）は何か？
RQ4ポアソン化を活用する KLUCB を用いたアルゴリズムは、低コンバージョンレート下で UCB と比較して、リグレットと収束速度の点でどの程度優れているか？
RQ5短い学習期間下で、遅延に配慮したアルゴリズムは、遅延フィードバックを無視する単純なヒューリスティクス（例：破棄）をどの程度上回るか？

主な発見

本稿は、遮断ありおよび遮断なしの遅延フィードバックモデルの両方について、問題依存のリグレット下界を確立し、理論的ベンチマークを提供する。
d-KLUCB アルゴリズムは、ポアソン化と KL ダイバージェンスの活用により、特にコンバージョンレートが低い場合（例：0.03）にほぼ最適な漸近的リグレット性能を達成する。
T = 10,000、m = 1000、μ = 500 のシミュレーションにおいて、θ_L = (0.1, 0.05, 0.03) の低コンバージョンレート下で、d-KLUCB は d-UCB やフィードバック破棄ヒューリスティクスを著しく上回る。
d-UCB および d-KLUCB アルゴリズムは、初期段階で線形リグレットを示すフィードバック破棄ポリシーと比較して、短い学習期間下でも著しく優れた性能を示す。
幾何分布に従う遅延仮定下では、再帰的更新によりアルゴリズムを効率的に実装でき、メモリと計算量がそれぞれ O(m) および O(1) に削減される。
実験結果から、ポアソン化に基づく KLUCB 変種は、低コンバージョン確率下でも最適レートに近いリグレット増加率を示し、損失が無視できることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。