Skip to main content
QUICK REVIEW

[论文解读] Robust Bayesian Optimization via Tempered Posteriors

Jiguang Li, Hengrui Luo|arXiv (Cornell University)|Jan 11, 2026
Advanced Bandit Algorithms Research被引用 0
一句话总结

本文在贝叶斯优化中引入 tempered(alpha- tempered)后验更新以抑制代理模型过度自信,推导带有广义改进获取策略的 tempered GP 代理的后悔界限,并提出一个在线 alpha 调参方案。

ABSTRACT

Bayesian optimization (BO) iteratively fits a Gaussian process (GP) surrogate to accumulated evaluations and selects new queries via an acquisition function such as expected improvement (EI). In practice, BO often concentrates evaluations near the current incumbent, causing the surrogate to become overconfident and to understate predictive uncertainty in the region guiding subsequent decisions. We develop a robust GP-based BO via tempered posterior updates, which downweight the likelihood by a power $α\in (0,1]$ to mitigate overconfidence under local misspecification. We establish cumulative regret bounds for tempered BO under a family of generalized improvement rules, including EI, and show that tempering yields strictly sharper worst-case regret guarantees than the standard posterior $(α=1)$, with the most favorable guarantees occurring near the classical EI choice. Motivated by our theoretic findings, we propose a prequential procedure for selecting $α$ online: it decreases $α$ when realized prediction errors exceed model-implied uncertainty and returns $α$ toward one as calibration improves. Empirical results demonstrate that tempering provides a practical yet theoretically grounded tool for stabilizing BO surrogates under localized sampling.

研究动机与目标

  • 在局部建模误差和过度自信下,激发 BO 代理的鲁棒性。
  • 在 BO 的贝叶斯线性和 GP 代理中嵌入似然温和化以稳定更新。
  • 推导 tempered GP 代理在广义改进规则(包括 EI)下的累积后悔界限。
  • 提出一个便于调参的在线程序,在 BO 中选择 tempering 参数 alpha。
  • 通过基准函数的实验,展示 tempering 的实际性能提升。

提出的方法

  • 通过将似然乘以一个在 (0,1] 的幂 alpha 来形成 tempered 后验更新。
  • 开发一个带 tempered 后验更新的 GP 代理,并导出在 alpha 下的预测均值和方差(mu_{t,alpha}, sigma_{t,alpha})。
  • 推导 tempered GP 后验下的广义 EI (g-EI) 获取的闭式表达式(包括一个重标定 nu_t 和 tau_g(v) 函数)。
  • 建立依赖于 alpha 和 g 参数的 tempered BO 的累积后悔界限,并给出明确的 gamma 项和行列式增长界限。
  • 提出一个前瞻性、调参更少的在线日程,以基于标定和实际预测误差在线调整 alpha。
  • 给出与标准 alpha=1 理论的解析比较,显示 tempered 后验在非参数 GP 设置中可获得更尖的最坏情形保证。

实验结果

研究问题

  • RQ1在 BO 中对似然进行温和化是否能提高对代理局部建模误差的鲁棒性?
  • RQ2温和后验如何与 PI 和 EI 等广义改进获取在后悔方面相互作用?
  • RQ3能否推导出依赖于 alpha 和 g 的 tempered GP-based BO 的显式后悔界限,并与标准后验相比如何?
  • RQ4是否存在一个实用的在线方法在 BO 过程中调整 alpha 而无需大量调参?
  • RQ5温和策略在基准 BO 问题上是否提供经验性能提升?

主要发现

  • 通过在 (0,1] 区间的 alpha 对代理进行温和化可以降低局部建模误差权重,从而避免 BO 的过度自信后验。
  • 对于 tempered GP,推导出 g-EI 的闭式表达式,便于分析 tempered BO 算法。
  • 后悔界限表明,在固定的 g 情况下,温和化相对于标准的 alpha=1 能获得更尖锐的最坏情形保证,EI 设置下的收益最显著。
  • 在线性代理基线中,正确设定下的 tempered 更新并不改善主导项的 EI 后悔,强调 tempering 的价值主要在非线性 GP 情况。
  • 提出一个前瞻性在线时间日程以调整 alpha,当预测误差超过模型不确定性时降低 alpha,校准改善后再回到 1。
  • 实证结果表明 tempering 稳定了 BO 代理并在局部采样下提升鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。