Skip to main content
QUICK REVIEW

[論文レビュー] Multiple-Play Bandits in the Position-Based Model

Paul Lagrée, Claire Vernade|arXiv (Cornell University)|Jun 8, 2016
Advanced Bandit Algorithms Research参考文献 23被引用数 27
ひとこと要約

本稿では、ユーザーのクリックが観測されない位置ベースの検閲確率によって遮断される複数プレイバンドイット問題における、新しいレジット下界と計算的に効率的なアルゴリズムを提案する。クリックフィードバックを位置の検閲とアイテムの関連性の積としてモデル化することで、暗黙のフィードバックを伴う推薦システムにおいて理論的および実験的パフォーランスの向上を達成するオプティミスティックなアルゴリズムを設計した。

ABSTRACT

Sequentially learning to place items in multi-position displays or lists is a task that can be cast into the multiple-play semi-bandit setting. However, a major concern in this context is when the system cannot decide whether the user feedback for each item is actually exploitable. Indeed, much of the content may have been simply ignored by the user. The present work proposes to exploit available information regarding the display position bias under the so-called Position-based click model (PBM). We first discuss how this model differs from the Cascade model and its variants considered in several recent works on multiple-play bandits. We then provide a novel regret lower bound for this model as well as computationally efficient algorithms that display good empirical and theoretical performance.

研究の動機と目的

  • ユーザーのフィードバックが観測されない位置ベースの検閲確率によって遮断される多位置推薦システムにおける学習の課題に対処すること。
  • 観測可能な遮断されたクリックフィードバックに限定される位置ベースモデル(PBM)における複数プレイバンドイット問題を形式化すること。
  • カスケードモデルや従属クリックモデルとは異なる、PBM設定における新しいレジット下界を導出すること。
  • PBM設定において、理論的および実験的パフォーマンスが優れた計算的に効率的なオプティミスティックなアルゴリズムを設計すること。

提案手法

  • 各位置 $l$ が観測されない検閲確率 $\kappa_l$ を持つ $L$ アーム選択の確率的複数プレイバンドイットとしてPBMをモデル化する。
  • 遮断されたフィードバックを観測する:$Z_l(t) = Y_l(t) \cdot X_l(t)$、ここで $Y_l(t) \sim \mathcal{B}(\kappa_l)$ は観測不可であり、$X_l(t) \sim \mathcal{B}(\theta_{A_l(t)})$ はアイテムの関連性を表す。
  • 位置固有の検閲効果を補正したKL-UCBスタイルの信頼区間を用いて、探索と活用のバランスをとる2つのオプティミスティックなアルゴリズムを提案する。
  • 遮断されたフィードバック下での最適でないアームと最適アームを区別する統計的難易度を分析することで、レジット下界を導出する。
  • 部分和の集中不等式(例:ホフディング型の不等式)を用いて、推定誤差を制御する。
  • 停止時刻の議論とマルティンゲールの集中を適用し、最適でないアームが選択される回数の上限を導出し、最終的にレジットバウンドに至る。

実験結果

リサーチクエスチョン

  • RQ1PBM設定は、カスケードモデルや従属クリックモデルと比較して、フィードバック構造と学習の課題においてどのように異なるか?
  • RQ2PBM設定下での複数プレイバンドイット問題における根本的な統計的限界(すなわち、レジット下界)は何か?
  • RQ3PBM設定で、漸近的に最適なレジットを達成する計算的に効率的なアルゴリズムを設計できるか?
  • RQ4位置固有の検閲確率 $\kappa_l$ は、学習プロセスと達成可能なレジットにどのように影響を与えるか?

主な発見

  • 本稿では、遮断されたフィードバックを伴う複数プレイバンドイット問題におけるPBM設定に対して、新しいレジット下界を確立した。これは、遮断されたフィードバック下での学習の本質的な難易度を形式化したものである。
  • 提案されたオプティミスティックなアルゴリズムは、導出された下界と対数的要因を除いて一致する理論的レジットバウンドを達成しており、漸近的最適性を示している。
  • 合成データおよび実世界データを用いた実験的評価により、提案アルゴリズムが累積レジットおよび収束速度の面で既存のベンチマークを上回ることが示された。
  • 分析から、検閲確率 $\kappa_l$ が学習プロセスに顕著に影響を与えることが判明した。特に、上位位置での $\kappa_l$ が低いほど、アイテムの関連性の推定が難しくなる。
  • 理論的分析により、最適でないアームが選択される回数は $O(\log T)$ で有界であり、その定数は期待クリック確率の差と位置重みに依存することが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。