QUICK REVIEW

[论文解读] Thompson Sampling in Switching Environments with Bayesian Online Change Point Detection

Joseph Mellor, Jonathan Shapiro|arXiv (Cornell University)|Feb 15, 2013

Advanced Bandit Algorithms Research参考文献 10被引用 35

一句话总结

该论文提出了一种新型算法——变化点贝努利采样（Change-Point Thompson Sampling, CTS），将贝努利采样与贝叶斯在线变化点检测相结合，以解决具有突发分布突变的非平稳多臂赌博机问题。该方法通过潜在的运行时长（runlength）建模切换环境，并对变化点进行后验推断，在Yahoo!新闻点击率和外汇汇率等真实数据集上的实验表明，其性能优于基线赌博机算法。

ABSTRACT

Thompson Sampling has recently been shown to be optimal in the Bernoulli Multi-Armed Bandit setting[Kaufmann et al., 2012]. This bandit problem assumes stationary distributions for the rewards. It is often unrealistic to model the real world as a stationary distribution. In this paper we derive and evaluate algorithms using Thompson Sampling for a Switching Multi-Armed Bandit Problem. We propose a Thompson Sampling strategy equipped with a Bayesian change point mechanism to tackle this problem. We develop algorithms for a variety of cases with constant switching rate: when switching occurs all arms change (Global Switching), switching occurs independently for each arm (Per-Arm Switching), when the switching rate is known and when it must be inferred from data. This leads to a family of algorithms we collectively term Change-Point Thompson Sampling (CTS). We show empirical results of the algorithm in 4 artificial environments, and 2 derived from real world data; news click-through[Yahoo!, 2011] and foreign exchange data[Dukascopy, 2012], comparing them to some other bandit algorithms. In real world data CTS is the most effective.

研究动机与目标

解决标准贝努利采样在奖励分布随时间变化的非平稳环境中性能下降的问题。
为具有突发切换的多臂赌博机开发一种稳健的方法，同时建模全局切换与各臂独立切换的动力学。
将贝叶斯在线变化点检测与贝努利采样相结合，实现在时变环境中的自适应学习。
在合成数据集和真实世界数据集（包括Yahoo!新闻点击率和外汇汇率）上评估所提算法。
证明在切换环境中，CTS实现的遗憾和误差率低于其他竞争算法。

提出的方法

将环境建模为切换系统，其中奖励分布因已知或推断的切换速率而发生突变，由一个危险函数控制。
引入一个潜在的运行时长变量 $ r_t $，表示自上次变化点以来的时间，并通过对其积分计算 $ P( heta|D_{t-1}) $。
对伯努利奖励使用共轭先验（Beta分布），并基于自上次变化点以来的奖励更新 $ heta_j $ 的后验信念。
应用贝叶斯在线变化点检测（Fearnhead & Liu, 2007；Adams & MacKay, 2007）以估计运行时长的后验 $ P(r_t|D_{t-1}) $。
从 $ P(r_t|D_{t-1}) $ 中进行采样，然后从 $ P( heta|D_{t-1}, r_t) $ 中进行采样，并选择采样后 $ heta_j $ 最高的臂，从而实现在非平稳环境中的贝努利采样。
将该框架扩展至处理全局切换（所有臂同时变化）和各臂独立切换（各臂独立变化）的情形，并针对已知或推断的切换速率设计不同变体。

实验结果

研究问题

RQ1如何将贝努利采样适应于奖励分布发生突发且未知变化的环境，以保持性能？
RQ2通过贝叶斯在线变化点检测建模切换动力学，对非平稳赌博机的遗憾和学习效率有何影响？
RQ3全局切换与各臂独立切换模型在时变环境中的算法性能表现有何差异？
RQ4所提出的变点贝努利采样（CTS）框架能否在真实世界非平稳数据上超越标准赌博机算法（如UCB和折扣UCB）？
RQ5当切换速率已知与从数据中推断时，CTS的性能表现有何不同？

主要发现

在Yahoo!首页点击日志数据集上，Global-CTS2实现了最低的遗憾值 $ 0.443 imes 10^{-3} $（±0.031），优于UCB（$ 0.526 imes 10^{-3} $）和DiscountedUCB（$ 0.568 imes 10^{-3} $）。
在外汇汇率赌博机环境中，NP Global-CTS实现了最低的误差率 $ 348.2 imes 10^{-3} $（±13.7），显著低于UCB（$ 613.9 imes 10^{-3} $）和Random（$ 623.3 imes 10^{-3} $）。
在Yahoo!数据上表现最佳的变体Global-CTS2，虽未显式进行变化检测，但能追踪最优臂的变化，表明简单适应切换机制已具有效性。
采用非参数先验（NP）的CTS变体在合成数据集和真实世界数据集上均表现优异，表明其对模型误设具有鲁棒性。
该算法在所有测试环境中均保持了较低的遗憾和误差，证明其在人工与真实世界非平稳赌博机问题中的有效性。
尽管在PASCAL挑战数据集上表现欠佳，但CTS在真实世界数据上表现强劲，验证了其在动态环境中的实际应用价值。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。