[论文解读] Scalable Bayesian Optimization Using Deep Neural Networks
本文提出深度神经网络全局优化(DNGO),一种可扩展的贝叶斯优化方法,通过使用深度神经网络替代高斯过程来建模函数的后验分布。通过利用神经网络进行自适应基函数回归,DNGO 实现了与数据规模呈线性关系的计算复杂度——支持大规模并行超参数调优——并在 CIFAR-10(6.37% 错误率)和 CIFAR-100(27.4% 错误率)上实现了最先进性能,且仅需极少的序列步骤。
Bayesian optimization is an effective methodology for the global optimization of functions with expensive evaluations. It relies on querying a distribution over functions defined by a relatively cheap surrogate model. An accurate model for this distribution over functions is critical to the effectiveness of the approach, and is typically fit using Gaussian processes (GPs). However, since GPs scale cubically with the number of observations, it has been challenging to handle objectives whose optimization requires many evaluations, and as such, massively parallelizing the optimization. In this work, we explore the use of neural networks as an alternative to GPs to model distributions over functions. We show that performing adaptive basis function regression with a neural network as the parametric form performs competitively with state-of-the-art GP-based approaches, but scales linearly with the number of data rather than cubically. This allows us to achieve a previously intractable degree of parallelism, which we apply to large scale hyperparameter optimization, rapidly finding competitive models on benchmark object recognition tasks using convolutional networks, and image caption generation using neural language models.
研究动机与目标
- 解决贝叶斯优化中高斯过程的立方级计算复杂度问题,该问题在高评估场景下限制了可扩展性。
- 通过用可扩展的神经网络代理替代昂贵的高斯过程推理,实现大规模并行超参数优化。
- 开发一种在数据规模上线性扩展的同时,仍能保持不确定性量化和探索-利用平衡的方法。
- 在大规模机器学习问题(包括深度神经网络超参数调优)上证明该方法的有效性。
- 构建一个稳健且可泛化的优化框架,使其能跨多种全局优化任务通用,而无需对调优器本身进行问题特定的调优。
提出的方法
- 在贝叶斯优化中,用深度神经网络替代高斯过程先验,以建模函数的后验分布。
- 利用神经网络学习一组用于贝叶斯线性回归的自适应基函数,从而实现高效的函数逼近。
- 使用随机梯度下降训练神经网络代理,支持在新观测到达时进行可扩展且增量式的更新。
- 在神经网络的预测均值和方差上应用标准采集函数(如期望改进),以指导下一个评估点的选择。
- 利用模型的不确定性估计,在优化过程中平衡探索与利用,类似于基于高斯过程的方法。
- 通过将评估任务分发到并行计算资源(如英特尔至强融核协处理器和高性能计算集群)来应用该方法于大规模超参数搜索。
实验结果
研究问题
- RQ1深度神经网络能否在保持不确定性量化的同时,有效替代贝叶斯优化中的高斯过程作为代理模型?
- RQ2所提出的 DNGO 方法是否在函数评估次数上实现线性扩展,从而支持大规模并行优化?
- RQ3DNGO 是否能发现与最先进性能相当或更优的超参数配置,应用于复杂的深度学习任务(如图像分类)?
- RQ4在大规模基准测试中,DNGO 与基于高斯过程的贝叶斯优化相比,在收敛速度和最终解质量方面表现如何?
- RQ5DNGO 在无需对优化框架本身进行重新调优的情况下,能在多大程度上泛化到不同的机器学习问题?
主要发现
- DNGO 实现了与观测数量的线性扩展,与标准高斯过程的立方级扩展形成鲜明对比,从而支持可扩展优化。
- 该方法成功发现了一种卷积神经网络配置,在 CIFAR-10 上实现 6.37% 的测试错误率,达到最先进性能。
- 在 CIFAR-100 上,DNGO 找到的模型测试错误率为 27.4%,显著优于基线方法,并达到具有竞争力的结果。
- 该方法实现了高效的大规模并行超参数调优,支持在英特尔至强融核协处理器上并行运行 40 个任务。
- 使用 DNGO 优化的超参数在完整 CIFAR-100 数据集上训练 350 个周期后,最终模型的测试错误率为 27.4%,展现出强大的泛化能力。
- DNGO 在图像字幕生成任务上也取得了具有竞争力的结果,在 Microsoft COCO 2014 数据集上单模型 BLEU 得分为 25.1,集成模型为 26.7。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。