[论文解读] Learning to Warm-Start Bayesian Hyperparameter Optimization
本论文提出一种元学习方法,通过使用带有深度特征提取器和元特征提取器的孪生网络学习数据集元特征,实现贝叶斯超参数优化(BHO)的热启动。该方法利用学习到的嵌入识别相似数据集,并基于其历史最优超参数初始化BHO,显著降低评估成本——在使用卷积神经网络(CNN)的八个图像分类数据集上,实验表明收敛性得到明显改善。
Hyperparameter optimization aims to find the optimal hyperparameter configuration of a machine learning model, which provides the best performance on a validation dataset. Manual search usually leads to get stuck in a local hyperparameter configuration, and heavily depends on human intuition and experience. A simple alternative of manual search is random/grid search on a space of hyperparameters, which still undergoes extensive evaluations of validation errors in order to find its best configuration. Bayesian optimization that is a global optimization method for black-box functions is now popular for hyperparameter optimization, since it greatly reduces the number of validation error evaluations required, compared to random/grid search. Bayesian optimization generally finds the best hyperparameter configuration from random initialization without any prior knowledge. This motivates us to let Bayesian optimization start from the configurations that were successful on similar datasets, which are able to remarkably minimize the number of evaluations. In this paper, we propose deep metric learning to learn meta-features over datasets such that the similarity over them is effectively measured by Euclidean distance between their associated meta-features. To this end, we introduce a Siamese network composed of deep feature and meta-feature extractors, where deep feature extractor provides a semantic representation of each instance in a dataset and meta-feature extractor aggregates a set of deep features to encode a single representation over a dataset. Then, our learned meta-features are used to select a few datasets similar to the new dataset, so that hyperparameters in similar datasets are adopted as initializations to warm-start Bayesian hyperparameter optimization.
研究动机与目标
- 通过利用相似数据集的先验知识,减少贝叶斯超参数优化(BHO)中昂贵的验证评估次数。
- 学习能够捕捉数据集相似性的有效且可泛化的元特征,以支持超参数迁移。
- 设计一种深度度量学习框架,实现对相似数据集的精确检索,用于初始化。
- 通过从最相似的历史数据集中获取超参数初始化BHO,提升收敛性。
- 评估不同元特征学习架构(ADF 与 Bi-LSTM)在超参数热启动背景下的有效性。
提出的方法
- 采用孪生神经网络架构,通过双分支进行成对数据集比较:一个分支从单个数据样本中提取深度特征,另一个分支将这些特征聚合为每个数据集的元特征向量。
- 网络通过最小化学习到的元特征之间的欧氏距离与数据集间目标距离(如验证误差差异)之间的差异进行训练。
- 从80个数据集中提取元特征,对于新数据集,使用余弦距离或欧氏距离在元特征空间中识别k个最近邻。
- 从k个最近邻数据集中检索表现最佳的超参数配置,并用作BHO的初始点,替代随机或准随机初始化。
- 该方法在贝叶斯优化循环中使用期望改进(Expected Improvement, EI)和GP-UCB等采集函数,迭代选择新的超参数。
- 评估了孪生网络的两种变体:一种采用基于注意力的融合(ADF),另一种采用双向长短期记忆网络(Bi-LSTM)进行元特征聚合。
实验结果
研究问题
- RQ1学习到的元特征是否能有效衡量数据集相似性,以指导贝叶斯优化中的超参数热启动?
- RQ2与随机初始化相比,使用相似数据集的超参数进行BHO初始化是否能减少所需评估次数?
- RQ3在超参数热启动背景下,不同元特征学习架构(如ADF与Bi-LSTM)的性能表现如何比较?
- RQ4热启动在多大程度上提升了在多样化图像数据集上卷积神经网络(CNN)超参数调优的收敛速度和最终性能?
- RQ5所提出方法在不同采集函数(如EI与GP-UCB)和初始化策略下是否具有鲁棒性?
主要发现
- 在大多数实验中,基于Bi-LSTM的元特征学习方法优于基于ADF的元特征学习,表明其元特征具有更好的泛化能力。
- 使用学习到的元特征空间中k个最近邻进行初始化,相比均匀分布、拉丁超立方和哈尔顿采样,实现了更快的收敛速度和更低的验证误差。
- 该方法通过利用相似数据集的历史性能数据,减少了BHO所需的评估次数,显著提升了优化效率。
- 在八个图像数据集(如CIFAR-10、MNIST、CUB-200-2011)上的实证结果表明,无论使用EI还是GP-UCB采集函数,所有测试案例均取得一致改进。
- 学习到的元特征实现了超参数知识的有效迁移,相似数据集中的最佳配置可作为优化的强有力初始点。
- 采用对比损失训练的孪生网络成功最小化了元特征距离与实际性能差异之间的偏差,验证了度量学习目标的有效性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。