Skip to main content
QUICK REVIEW

[论文解读] Max-value Entropy Search for Efficient Bayesian Optimization

Zi Wang, Stefanie Jegelka|arXiv (Cornell University)|Mar 6, 2017
Gaussian Processes and Bayesian Inference被引用 181
一句话总结

MES 引入了一种基于互信息并以最大值 y* 为目标的计算量更小的获取函数,在成本更低的情况下实现了与 ES/PES 相当甚至更好的性能,尤其在更高维度时。

ABSTRACT

Entropy Search (ES) and Predictive Entropy Search (PES) are popular and empirically successful Bayesian Optimization techniques. Both rely on a compelling information-theoretic motivation, and maximize the information gained about the $\arg\max$ of the unknown function; yet, both are plagued by the expensive computation for estimating entropies. We propose a new criterion, Max-value Entropy Search (MES), that instead uses the information about the maximum function value. We show relations of MES to other Bayesian optimization methods, and establish a regret bound. We observe that MES maintains or improves the good empirical performance of ES/PES, while tremendously lightening the computational burden. In particular, MES is much more robust to the number of samples used for computing the entropy, and hence more efficient for higher dimensional problems.

研究动机与目标

  • 为 ES/PES 提供一个可扩展的替代方案,聚焦于关于最大值 y* 的信息而非 argmax x*。
  • 将 MES 发展为具有可处理熵近似的高效获取函数。
  • 通过加性高斯过程(Add-GP)将 MES 扩展到高维。
  • 建立与 GP-UCB、PI、EST 的理论联系,并为 MES 变体提供后悔界。
  • 在合成和真实世界的优化任务中展示经验效率和鲁棒性。

提出的方法

  • 用关于最大值 y* 的信息替代对 argmax 的关注(获取函数 alpha_t(x) = I((x,y); y* | D_t))。
  • 使用 p(y|D_t,x) 和 p(y|D_t,x,y*),推导一个实用、可处理的互信息表达式,得到近似闭式形式(Eq. 6)。
  • 通过 (i) Gumbel 抽样或 (ii) 从 GP 后验函数中抽样并对它们求最大来近似 y* 的分布(随机特征)。
  • 建立 MES 与 EST、GP-UCB 和 PI 之间的联系,证明在单一 y* 样本下等价(引理 3.1)。
  • 用加性 GP(Add-GP)将 MES 扩展到高维输入,对各加法分量进行独立获取并随后拼接。
  • 通过边际化 GP 超参数或对其进行采样(切片采样)提供实用的超参数自适应。

实验结果

研究问题

  • RQ1MES 是否在相较于 ES/PES 的情况下维持或提升 BO 性能,同时降低计算负担?
  • RQ2MES 如何与 GP-UCB、PI、EST 等既有 BO 标准相关并建立联系?
  • RQ3通过加性高斯过程在不牺牲性能的前提下,MES 是否可扩展至高维问题?
  • RQ4在 y* 的 Gumbel 与后验函数采样之间的使用对 empirical 性能有何影响?
  • RQ5可以为 MES 变体建立哪些后悔界?

主要发现

方法推断后悔(Eggholder)推断后悔(Shekel)推断后悔(Michalewicz)
UCB141.00±70.969.40±0.266.07±0.53
PI52.04±39.036.64±2.004.97±0.39
EI71.18±59.186.63±0.874.80±0.60
EST55.84±24.855.57±2.565.33±0.46
ES48.85±29.116.43±2.735.11±0.73
PES37.94±26.058.73±0.675.17±0.74
MES-R54.47±37.716.17±1.804.97±0.59
MES-G46.56±27.055.45±2.074.49±0.51
  • MES 在合成和真实任务中实现了与 ES/PES 相当或更好的简单性与推断后悔表现。
  • MES 的每轮计算时间显著低于 PES/ES,尤其当 y* 或 x* 的样本数增加时。
  • MES-G(基于高斯的采样)和 MES-R(基于随机特征的采样)对 y* 样本数具有鲁棒性,且在高维下表现良好。
  • Add-MES 有效将 MES 应用于加性 GP,在高维下仍能保持性能。
  • 在单变量 y* 抽样机制下,为 MES 的一个变体建立了简单的后悔界,将 MES 与 EST 和 GP-UCB 联系起来。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。