Skip to main content
QUICK REVIEW

[论文解读] Bayesian Online Model Selection

Aida Afshar, Yuke Zhang|arXiv (Cornell University)|Feb 20, 2026
Advanced Bandit Algorithms Research被引用 0
一句话总结

简述性结论:引入用于随机带带老虎机在线模型选择的贝叶斯算法,并证明一个 oracle 最佳贝叶斯遗憾界限为 Õ(d* M √T + √(M T));实验显示数据共享和先验设定错误的影响。

ABSTRACT

Online model selection in Bayesian bandits raises a fundamental exploration challenge: When an environment instance is sampled from a prior distribution, how can we design an adaptive strategy that explores multiple bandit learners and competes with the best one in hindsight? We address this problem by introducing a new Bayesian algorithm for online model selection in stochastic bandits. We prove an oracle-style guarantee of $O\left( d^* M \sqrt{T} + \sqrt{(MT)} ight)$ on the Bayesian regret, where $M$ is the number of base learners, $d^*$ is the regret coefficient of the optimal base learner, and $T$ is the time horizon. We also validate our method empirically across a range of stochastic bandit settings, demonstrating performance that is competitive with the best base learner. Additionally, we study the effect of sharing data among base learners and its role in mitigating prior mis-specification.

研究动机与目标

  • 在环境实例从先验中抽取的情形下,激发对贝叶斯老虎机的在线模型选择。
  • 设计一个元学习者,在多种基础带老虎机学习者中进行选择,具备 oracle 最佳保证。
  • 提供一种数据驱动的方法,利用后验采样来比较基础学习者,而无需已知的遗憾界限。
  • 展示经验性能以及对先验设定错误与基础学习者之间的数据共享的鲁棒性。

提出的方法

  • 提出一个贝叶斯在线模型选择(B-MS)算法,它对基础学习者维护全局后验并从中采样平均奖励。
  • 定义平衡势能 φt(i) = nt^i * μ̃t* − ∑l∈It^i μ̃t(al) 来比较基础学习者并选择具有最小势能的那个。
  • 当基础学习者为固定臂时,证明该方法可恢复类似 TS 的贝叶斯遗憾界。
  • 证明一个 oracle 最佳贝叶斯遗憾界限为 ḂayesRegret_T ≤ ṫilde{O}(d⋆ M √T + √(M T))。
  • 表明在基础学习者之间共享数据可以提升元学习者的性能,并有助于缓解先验设定错误的问题。
(a) Well-specified meta learner, one well-specified base learner
(a) Well-specified meta learner, one well-specified base learner

实验结果

研究问题

  • RQ1一个贝叶斯元学习者是否能够在来自先验的 realized 环境中与在事后选择的最佳基础学习者竞争?
  • RQ2基础学习者之间的数据共享如何影响学习效率以及对先验设定错误的鲁棒性?
  • RQ3所提出的在线模型选择算法的贝叶斯遗憾是什么,以及它如何随 horizon T、基础学习者数量 M 及最优基础学习者的遗憾系数 d⋆ 的变化而缩放?
  • RQ4贝叶斯在线模型选择框架如何与在站立臂上进行的 Thompson Sampling 相关并推广?
  • RQ5在哪些条件下,所提出的方法在特定情形下可恢复经典的 TS 保证?

主要发现

  • 所提出的 B-MS 算法实现了贝叶斯遗憾界限为 Õ(d⋆ M √T + √(M T))。
  • 该方法推广了 Thompson Sampling;当有 K 个基础学习者固定一个臂时,可恢复 Õ(√(K T)) 的贝叶斯遗憾。
  • 基础学习者之间的数据共享在各种实验中提升了元学习者的性能。
  • 当至少一个基础学习者设定正确时,错误设定的元学习者也能恢复,显示对 mis-specification 的鲁棒性。
  • 实验结果表明,在 UCB 与 LinTS 设置以及多种先验下,B-MS 与最佳基础学习者具有竞争力。
(b) Mis-specified meta learner, one well-specified base learner
(b) Mis-specified meta learner, one well-specified base learner

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。