QUICK REVIEW

[論文レビュー] Thompson Sampling in Switching Environments with Bayesian Online Change Point Detection

Joseph Mellor, Jonathan Shapiro|arXiv (Cornell University)|Feb 15, 2013

Advanced Bandit Algorithms Research参考文献 10被引用数 35

ひとこと要約

本稿では、変化点検出のためのベイズ的オンライン手法とテイラー・サブスクリプションを組み合わせた、非定常的マルチアームバンディット問題に対して新たなアルゴリズムであるChange-Point Thompson Sampling (CTS) を提案する。本手法は、隠れ的なランレングスを用いて環境の切り替えをモデル化し、変化点の事後分布を推定することで、Yahoo!ニュースのクリックスルーレートや為替レートといった実世界のデータセットにおいて、ベースラインのバンディットアルゴリズムよりも優れた性能を示す。

ABSTRACT

Thompson Sampling has recently been shown to be optimal in the Bernoulli Multi-Armed Bandit setting[Kaufmann et al., 2012]. This bandit problem assumes stationary distributions for the rewards. It is often unrealistic to model the real world as a stationary distribution. In this paper we derive and evaluate algorithms using Thompson Sampling for a Switching Multi-Armed Bandit Problem. We propose a Thompson Sampling strategy equipped with a Bayesian change point mechanism to tackle this problem. We develop algorithms for a variety of cases with constant switching rate: when switching occurs all arms change (Global Switching), switching occurs independently for each arm (Per-Arm Switching), when the switching rate is known and when it must be inferred from data. This leads to a family of algorithms we collectively term Change-Point Thompson Sampling (CTS). We show empirical results of the algorithm in 4 artificial environments, and 2 derived from real world data; news click-through[Yahoo!, 2011] and foreign exchange data[Dukascopy, 2012], comparing them to some other bandit algorithms. In real world data CTS is the most effective.

研究の動機と目的

報酬分布が時間とともに変化する非定常的環境において、標準的なテイラー・サブスクリプションの限界を解消すること。
急激な切り替えが生じる状況下でのマルチアームバンディット問題に対して、堅牢な手法を構築すること。
ベイズ的オンライン変化点検出とテイラー・サブスクリプションを統合し、時間変動する環境における適応的学習を可能にすること。
合成データおよび実世界のデータセット（Yahoo!ニュースのクリックスルーと為替レートを含む）を用いて、提案手法の評価を行うこと。
切り替え環境において、競合するアルゴリズムよりも低いリグレットと誤差率を達成できることを示すこと。

提案手法

報酬分布が急激に変化するスイッチング型環境をモデル化し、スイッチングレートが既知または推定可能なハザード関数に従うものとする。
最後の変化点からの経過時間を表す潜在変数 $ r_t $ を導入し、$ P( heta|D_{t-1}) $ を計算するためにこれを周辺化する。
ベルヌーイ報酬に対して共役事前分布（ベータ分布）を用い、最後の変化点以降の報酬に基づいて $ heta_j $ の事後分布を更新する。
Fearnhead & Liu (2007)、Adams & MacKay (2007) が提唱したベイズ的オンライン変化点検出法を用い、$ P(r_t|D_{t-1}) $ を推定する。
まず $ P(r_t|D_{t-1}) $ からサンプリングを行い、次に $ P( heta|D_{t-1}, r_t) $ からサンプリングし、最も高いサンプル値 $ heta_j $ を持つアームを選択することで、非定常的環境下でのテイラー・サブスクリプションを実現する。
スイッチングレートが既知かデータから推定されるかに応じた、グローバルスイッチング（全アームが同時に変化）とパーファームスイッチング（各アームが独立に変化）の両方を扱えるフレームワークを拡張する。

実験結果

リサーチクエスチョン

RQ1報酬分布の急激で未知の変化が生じる環境において、テイラー・サブスクリプションをどのように適合させれば、性能を維持できるか。
RQ2ベイズ的オンライン変化点検出を用いてスイッチングダイナミクスをモデル化した場合、非定常的バンディット問題におけるリグレットと学習効率にどのような影響を与えるか。
RQ3グローバルスイッチングとパーファームスイッチングのモデル化が、時間変動する環境下でのアルゴリズムの性能に与える影響は何か。
RQ4提案されたChange-Point Thompson Sampling (CTS) フレームワークは、実世界の非定常的データにおいて、UCB や割引UCB といった標準的手法を上回る性能を示せるか。
RQ5スイッチングレートがデータから推定される場合と既知である場合とで、CTS の性能はどのように変化するか。

主な発見

Yahoo! フロントページクリックログデータセットにおいて、Global-CTS2 は $ 0.443 \times 10^{-3} $（±0.031）という最低のリグレットを達成し、UCB（$ 0.526 \times 10^{-3} $）および DiscountedUCB（$ 0.568 \times 10^{-3} $）を上回った。
為替レートバンディット環境では、NP Global-CTS が $ 348.2 \times 10^{-3} $（±13.7）という最低の誤差率を記録し、UCB（$ 613.9 \times 10^{-3} $）および Random（$ 623.3 \times 10^{-3} $）を著しく下回った。
変化点を明示的に検出せず、最良のアームの変化にのみ対応する変種 Global-CTS2 は、Yahoo! データにおいて最も優れた性能を示し、単純なスイッチングへの適応が有効である可能性を示唆した。
非パラメトリック事前分布（NP）を用いたCTS の変種は、合成データおよび実世界のデータの両方で優れた性能を示し、モデルの誤設定に対しても頑健であることを示した。
すべてのテスト環境において、低リグレットと低誤差率を維持したため、人工的および実世界の非定常的バンディット問題に対して、本手法が有効であることが確認された。
PASCALチャレンジデータセットではやや性能を発揮しなかったが、実世界のデータでは強力な結果を示し、動的環境における実用的価値を裏付けた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。