QUICK REVIEW

[论文解读] Input Warping for Bayesian Optimization of Non-stationary Functions

Jasper Snoek, Kevin Swersky|arXiv (Cornell University)|Feb 5, 2014

Gaussian Processes and Bayesian Inference参考文献 35被引用 100

一句话总结

本文提出使用Beta分布的累积分布函数（CDF）进行输入变形，以在贝叶斯优化中建模非平稳函数，使高斯过程能够适应输入相关的长度尺度。该方法可自动学习输入空间的双射变换，在超参数调优等非平稳问题上显著提升优化性能，收敛速度和解的质量均优于先前的最先进方法。

ABSTRACT

Bayesian optimization has proven to be a highly effective methodology for the global optimization of unknown, expensive and multimodal functions. The ability to accurately model distributions over functions is critical to the effectiveness of Bayesian optimization. Although Gaussian processes provide a flexible prior over functions which can be queried efficiently, there are various classes of functions that remain difficult to model. One of the most frequently occurring of these is the class of non-stationary functions. The optimization of the hyperparameters of machine learning algorithms is a problem domain in which parameters are often manually transformed a priori, for example by optimizing in "log-space," to mitigate the effects of spatially-varying length scale. We develop a methodology for automatically learning a wide family of bijective transformations or warpings of the input space using the Beta cumulative distribution function. We further extend the warping framework to multi-task Bayesian optimization so that multiple tasks can be warped into a jointly stationary space. On a set of challenging benchmark optimization tasks, we observe that the inclusion of warping greatly improves on the state-of-the-art, producing better results faster and more reliably.

研究动机与目标

解决平稳高斯过程在建模真实世界贝叶斯优化问题中常见的非平稳函数时的局限性。
开发一种自动且计算高效的输入空间变换学习方法，以缓解非平稳性的影响。
将变形框架扩展至多任务贝叶斯优化，实现在多个任务间共享联合平稳表示。
通过捕捉目标函数中空间变化的长度尺度，提升优化的可靠性和速度。
实现对学习到的非平稳性的可解释后验分析，以洞察参数空间结构。

提出的方法

对每个输入维度应用双射变形，使用Beta分布的累积分布函数（CDF）来建模非线性、输入相关的变换。
对Beta分布的形状参数进行边缘化处理，以贝叶斯方式学习变形函数。
将变形集成到高斯过程的核函数中，以实现对目标函数的灵活非平稳建模。
通过学习一个共享的、变形后的输入空间，将框架扩展至多任务贝叶斯优化，使所有任务在该空间中联合平稳。
使用马尔可夫链蒙特卡洛（MCMC）采样推断变形参数和超参数的后验分布。
利用Beta CDF的可解释性，分析学习到的变换，以洞察参数敏感性。

实验结果

研究问题

RQ1使用Beta CDF的输入变形是否能有效建模贝叶斯优化中的非平稳函数，特别是在长度尺度随输入空间变化时？
RQ2与标准平稳高斯过程模型相比，输入变形在非平稳基准问题上的优化性能如何提升？
RQ3该变形框架能否成功扩展至多任务贝叶斯优化，以改善相关任务间的迁移学习？
RQ4学习到的变形函数是否与特定领域对参数敏感性和模型行为的直觉一致？
RQ5建模非平稳性在多大程度上减少了达到最优解所需的函数评估次数？

主要发现

在连续超参数优化问题上，输入变形显著优于Snoek等人（2012）提出的最先进贝叶斯优化方法，收敛更快且达到更优解。
在HPOLib基准上，该方法在所有连续超参数调优任务中均表现更优，展现出一致的性能提升。
在多任务贝叶斯优化中，变形后的MTBO优于非变形MTBO，通过在USPS上预训练后在MNIST目标任务上实现更快收敛，显著提升了迁移学习效果。
学习到的变形函数与领域直觉一致——例如，在较小数据集如USPS上更偏好较高的L2正则化，反映了数据效率的权衡。
对学习到的变形进行后验分析揭示了深度学习超参数搜索中的反直觉洞察，挑战了传统的设计启发式方法。
该方法同时提升了收敛速度和可靠性，变形后的贝叶斯优化能持续避开局部极小值，而标准方法则会陷入其中。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。