QUICK REVIEW

[論文レビュー] Thompson sampling with the online bootstrap

Dean Eckles, Maurits Kaptein|arXiv (Cornell University)|Oct 15, 2014

Advanced Bandit Algorithms Research参考文献 27被引用数 28

ひとこと要約

本稿では、オンライン再重み付け（例：ダブル・オア・ noting ブートストラップ）を用いて事後分布をブートストラップ分布に置き換えることで、計算的に効率的なトムソン・サブミッション（BTS）を提案する。BTSはベルヌーイ分布およびガウス分布のバンディット問題において、競争力のある性能を達成し、スケーラビリティとモデル不適合に対するロバストネスが向上しており、特に非定常誤差構造下でも優れた性能を示す。

ABSTRACT

Thompson sampling provides a solution to bandit problems in which new observations are allocated to arms with the posterior probability that an arm is optimal. While sometimes easy to implement and asymptotically optimal, Thompson sampling can be computationally demanding in large scale bandit problems, and its performance is dependent on the model fit to the observed data. We introduce bootstrap Thompson sampling (BTS), a heuristic method for solving bandit problems which modifies Thompson sampling by replacing the posterior distribution used in Thompson sampling by a bootstrap distribution. We first explain BTS and show that the performance of BTS is competitive to Thompson sampling in the well-studied Bernoulli bandit case. Subsequently, we detail why BTS using the online bootstrap is more scalable than regular Thompson sampling, and we show through simulation that BTS is more robust to a misspecified error distribution. BTS is an appealing modification of Thompson sampling, especially when samples from the posterior are otherwise not available or are costly.

研究の動機と目的

MCMCによる事後分布サンプリングのコストが高いため、大規模バンディット問題におけるトムソン・サブミッションの計算不能性に対処する。
特にi.i.d.でない、または異分散誤差構造下でのモデル不適合に対して、トムソン・サブミッションのロバストネスを向上させる。
事後分布の完全な計算を回避するため、ブートストラップリサンプリングを用いた、スケーラブルでオンラインなトムソン・サブミッションの代替手法を開発する。
完全なデータ再処理が非現実的なストリーミングまたは高ボリュームデータ環境において、並列処理とリアルタイム更新を可能にする。
パラメトリック仮定への依存を低減し、複雑な事後分布サンプリングを回避しながらも、強力な性能を維持できることを示す。

提案手法

トムソン・サブミッションにおける事後分布 P(θ|D) を、再重み付けによる点推定 θ̂ のブートストラップ分布に置き換える。
各観測値に重み 0 または 2（または 0 または 1）を等確率で割り当てることで、ダブル・オア・ noting ブートストラップ（DoNB）を用いる。
各ブートストラップ再現 j に対して、現在のデータと重みを用いて重み付き推定値 θ̂j を計算し、これらの θ̂j の経験的分布から行動を選択する。
オンラインで手法を実装：新しい観測値が到着した際、各ブートストラップ再現を確率 1/2 で更新することで、全再計算を回避する。
各腕が最適である確率をブートストラップ分布によって決定し、トムソン・サブミッションと同様に、探索と活用のトレードオフを実現する。
複数のマシンやコアにブートストラップ再現を分散することで並列化を活用し、実世界のシステムにおける高スループットなデプロイを可能にする。

実験結果

リサーチクエスチョン

RQ1ブートストラップベースのサンプリングは、バンディット問題における事後分布を十分に近似できるか、競争力のある性能を維持できるか？
RQ2モデル不適合下、特に異分散誤差がある場合、BTSはトムソン・サブミッションに比べて累積リグレット性能でどの程度優れているか？
RQ3BTSは大規模データセットに対してどの程度スケーラブルか？また、ストリーミング形式で効率的に更新可能か？
RQ4ブートストラップ再現数 J が、BTSの探索と活用のバランスおよび全体的な性能にどの程度影響を与えるか？
RQ5性能や一貫性を損なわずに、分散型または並列化された形でBTSを実装可能か？

主な発見

BTSは、十分なブートストラップ再現数（J=1000）を用いることで、適合したベルヌーイバンディット設定下でトムソン・サブミッションと同等の累積リグレット性能を達成する。
異分散誤差分布下では、BTSはトムソン・サブミッションを著しく上回り、異分散度（γ）が高くなるほどリグレットの差が拡大する。
BTSの性能はブートストラップ再現数に敏感である：再現数が少なすぎると過剰に活用され、リグレットが上昇する。
各ブートストラップ再現が独立かつオンラインで更新可能であるため、BTSは計算的にスケーラブルである。
並列処理が容易であるため、オンライン広告やA/Bテストプラットフォームなど、大規模でリアルタイムな応用に適している。
特に仮定された尤度（例：ガウス分布）が真のデータ生成過程と一致しない場合でも、BTSはモデル不適合に対してロバストであることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。