QUICK REVIEW

[论文解读] Scalable Meta-Learning for Bayesian Optimization

Matthias Feurer, Benjamin Letham|arXiv (Cornell University)|Feb 6, 2018

Machine Learning and Data Classification参考文献 57被引用 32

一句话总结

本文提出了一种可扩展的元学习方法用于贝叶斯优化，该方法利用过去优化运行中训练得到的高斯过程模型集合，以加速新的超参数搜索。通过根据模型在当前任务上的估计泛化性能对模型进行加权，该方法避免了单模型方法的计算瓶颈，并在基准和真实工作负载中显著提升了找到近似最优配置的速度。

ABSTRACT

Bayesian optimization has become a standard technique for hyperparameter optimization, including data-intensive models such as deep neural networks that may take days or weeks to train. We consider the setting where previous optimization runs are available, and we wish to use their results to warm-start a new optimization run. We develop an ensemble model that can incorporate the results of past optimization runs, while avoiding the poor scaling that comes with putting all results into a single Gaussian process model. The ensemble combines models from past runs according to estimates of their generalization performance on the current optimization. Results from a large collection of hyperparameter optimization benchmark problems and from optimization of a production computer vision platform at Facebook show that the ensemble can substantially reduce the time it takes to obtain near-optimal configurations, and is useful for warm-starting expensive searches or running quick re-optimizations.

研究动机与目标

为解决深度神经网络等数据密集型模型中超参数优化速度慢的挑战。
利用先前实验的历史结果，实现新优化运行的高效热启动。
克服将所有过去结果合并为单一高斯过程模型时的可扩展性差问题。
在昂贵的优化环境中，加快收敛至近似最优超参数配置的速度。
开发一种基于其在当前任务上的预期性能，动态加权过去模型的方法。

提出的方法

该方法构建一个高斯过程模型集合，每个模型均基于之前一次优化运行的结果进行训练。
采用元学习策略，估计每个过去模型在当前优化任务上的泛化性能。
通过加权平均组合模型，权重由其在当前任务上的估计性能决定。
通过将过去数据解耦为独立模型，避免了单体建模，从而降低了计算开销。
该方法支持新优化运行的热启动，以及配置变更后的快速重新优化。
通过避免完全重新训练并利用分布式模型组件，实现了高效的可扩展性。

实验结果

研究问题

RQ1能否有效利用过去优化结果来加速新的贝叶斯优化运行？
RQ2如何在不承担单个统一模型计算成本的前提下组合过去模型？
RQ3基于过去模型在当前任务上的估计泛化性能进行加权，会产生何种影响？
RQ4与标准贝叶斯优化相比，该集成方法在收敛速度和解的质量方面表现如何？
RQ5该方法在保持性能的前提下，能否扩展到大规模过去优化运行集合？

主要发现

集成方法显著减少了在基准问题中达到近似最优超参数配置所需的评估次数。
与标准贝叶斯优化相比，该方法收敛更快，尤其是在从先前运行中热启动时表现更优。
该方法在过去运行数量增加时仍能高效扩展，避免了单模型方法中常见的二次方计算增长。
在 Facebook 生产级计算机视觉平台上的实证结果表明，超参数调优实现了可测量的时间节省。
当过去运行与当前优化任务相关时，性能提升最为显著，这由模型加权结果可明确体现。
集成模型优于对过去模型进行简单平均的方法，证明了基于性能加权的价值。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。