QUICK REVIEW

[论文解读] Regret bounds for meta Bayesian optimization with an unknown Gaussian process prior

Zi Wang, Beomjoon Kim|arXiv (Cornell University)|Nov 23, 2018

Advanced Bandit Algorithms Research被引用 24

一句话总结

本文提出了一种元贝叶斯优化框架，通过一种经验贝叶斯的变体，从离线数据中学习未知的高斯过程先验，从而实现无偏后验估计。随着离线数据和在线评估次数的增加，其遗憾边界趋近于零——收敛至与观测噪声成正比的常数，且对GP-UCB和改进概率获取函数提供了理论保证。

ABSTRACT

Bayesian optimization usually assumes that a Bayesian prior is given. However, the strong theoretical guarantees in Bayesian optimization are often regrettably compromised in practice because of unknown parameters in the prior. In this paper, we adopt a variant of empirical Bayes and show that, by estimating the Gaussian process prior from offline data sampled from the same prior and constructing unbiased estimators of the posterior, variants of both GP-UCB and probability of improvement achieve a near-zero regret bound, which decreases to a constant proportional to the observational noise as the number of offline data and the number of online evaluations increase. Empirically, we have verified our approach on challenging simulated robotic problems featuring task and motion planning.

研究动机与目标

解决高斯过程先验中未知超参数的问题，因为这在实践中会破坏理论保证。
解决贝叶斯优化中的“先有鸡还是先有蛋”问题，即先验选择依赖于数据，而数据收集又依赖于正确的先验。
开发一种元学习框架，利用来自同一高斯过程先验的离线数据，无偏地估计先验和后验超参数。
在有限和紧致输入空间中，为GP-UCB和改进概率获取函数建立理论遗憾边界。
在机器人任务和运动规划问题中展示其经验有效性，其中标准先验因非平稳性和不连续性而失效。

提出的方法

使用经验贝叶斯的一种变体，从离线训练数据中估计高斯过程先验超参数（均值和协方差），确保无偏估计器。
利用估计的先验和观测数据，在每一步构建后验均值和方差的无偏估计器。
通过估计的后验均值和方差，适配GP-UCB和改进概率获取函数，并引入依赖于数据的置信宽度参数 ζₜ。
在后验方差估计器中引入校正因子，以考虑估计不确定性，使用缩放逆-Wishart近似。
应用矩阵填充技术处理离散域中的缺失数据，在部分观测下仍保持性能。
在改进概率获取函数中使用真实最大函数值（f*）的已知上界，以确保收敛性。

实验结果

研究问题

RQ1当高斯过程先验超参数未知且必须从离线数据中估计时，我们能否在贝叶斯优化中实现理论遗憾边界？
RQ2使用经验贝叶斯并结合先验和后验的无偏估计器，是否能提升元BO中的遗憾性能？
RQ3GP-UCB和改进概率获取函数的遗憾边界如何随离线数据和在线评估次数的增加而变化？
RQ4该方法是否能在标准先验失效的非平稳或不连续机器人优化任务中优于标准BO？
RQ5该方法对训练数据集中的缺失数据（尤其是离散输入空间）有多大的鲁棒性？

主要发现

所提方法实现了近乎零的遗憾边界，随着离线数据量和在线评估次数的增加，遗憾边界收敛至与观测噪声 σ² 成正比的常数。
在 ℝᵈ 中的有限和紧致输入空间中，GP-UCB和改进概率获取函数的遗憾边界在训练数据和核结构满足弱假设下收敛至 O(σ²)。
理论分析表明，在所提出的经验贝叶斯框架下，后验均值和方差的估计器是无偏的，从而支持有效的遗憾分析。
在机器人任务和运动规划问题上的实证结果表明，该方法优于所有基线方法，即使在标准先验（如平方指数）因非平稳性而失效时亦然。
该方法在缺失数据下仍具鲁棒性：训练数据中60%缺失时仍表现强劲，且改进概率获取函数的性能可与UCB相匹配。
GP-UCB中的置信宽度参数 ζₜ 来自涉及Wishart分布和数据量的高概率浓度界限，确保理论有效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。