[论文解读] Hyperparameter Transfer Learning with Adaptive Complexity
该论文提出 ABRAC,一种多任务贝叶斯优化方法,通过嵌套 dropout 和自动相关性确定(ARD),学习有序的非线性基函数并实现自适应复杂度。通过根据数据可用性动态调整活跃基函数的数量,ABRAC 提升了样本效率并降低了计算开销,在超参数调优基准测试中优于现有方法如 ABLR 和基于高斯过程的 BO。
Bayesian optimization (BO) is a sample efficient approach to automatically tune the hyperparameters of machine learning models. In practice, one frequently has to solve similar hyperparameter tuning problems sequentially. For example, one might have to tune a type of neural network learned across a series of different classification problems. Recent work on multi-task BO exploits knowledge gained from previous tuning tasks to speed up a new tuning task. However, previous approaches do not account for the fact that BO is a sequential decision making procedure. Hence, there is in general a mismatch between the number of evaluations collected in the current tuning task compared to the number of evaluations accumulated in all previously completed tasks. In this work, we enable multi-task BO to compensate for this mismatch, such that the transfer learning procedure is able to handle different data regimes in a principled way. We propose a new multi-task BO method that learns a set of ordered, non-linear basis functions of increasing complexity via nested drop-out and automatic relevance determination. Experiments on a variety of hyperparameter tuning problems show that our method improves the sample ef
研究动机与目标
- 解决序列化超参数调优任务中数据规模不匹配的问题,即新任务的评估次数少于先前任务。
- 通过将迁移知识的复杂度适配当前数据规模,提升多任务贝叶斯优化的样本效率。
- 开发一种可扩展的高斯过程替代方法,避免立方级计算复杂度,同时保持不确定性估计以支持优化。
- 通过学习共享的、有序的基函数并实现动态激活,实现跨相关超参数调优任务的合理迁移学习。
- 通过正则化和自动相关性确定限制活跃基函数,降低神经网络驱动的多任务 BO 的计算开销。
提出的方法
- 使用共享的全连接神经网络,在多个超参数调优任务中学习一组非线性基函数。
- 在神经网络的最终层应用嵌套 dropout,以强制实现复杂度逐步增加的基函数有序层次结构。
- 在共享基函数之上集成任务特定的贝叶斯线性回归头,以建模各个任务的目标。
- 利用自动相关性确定(ARD)在迁移学习过程中自动确定活跃基函数的数量。
- 在代理模型上使用期望改进(EI)等采集函数,以顺序方式、探索与利用相结合的方式选择下一轮超参数配置。
- 利用相关任务的先验数据和上下文信息(如数据集大小、类别分布)进行优化热启动,以加速收敛。
实验结果
研究问题
- RQ1多任务贝叶斯优化如何适应序列化超参数调优任务中不断变化的数据规模?
- RQ2嵌套 dropout 与自动相关性确定能否协同实现共享基函数的自适应复杂度?
- RQ3与固定复杂度的多任务 BO 方法相比,自适应基函数选择在多大程度上提升了样本效率?
- RQ4所提方法的计算开销与基于高斯过程和神经网络的基线方法相比如何?
- RQ5该方法能否在多样化的超参数调优问题上泛化,包括合成数据、表格数据和真实世界的支持向量机(SVM)基准?
主要发现
- 在所有基准测试中,ABRAC 在平均排名上均优于 ABLR 和基于高斯过程的 BO,尤其在表格数据和 SVM 任务上具有显著优势。
- 在 OpenML-SVM 基准测试中,ABRAC 实现了更优的 AUC 性能,仅在 45 次迭代后 ABLR SGD 固定方法的 AUC 与之相当。
- 与 ABLR 和高斯过程相比,ABRAC 将计算开销降低了 100 倍以上,使其在大规模超参数调优中具备高度可扩展性。
- 在参数化二次函数实验中,即使使用来自 290 个点的热启动数据,ABRAC 仍持续优于所有基线方法,包括 MT-GP-BO。
- 在表格基准测试中,ABRAC 在全部四个数据集上均实现了最佳平均排名和遗憾值,显著优于随机搜索及其他方法在给定预算下的表现。
- 该方法通过限制活跃基函数有效防止了过拟合——早期迭代中高阶基函数的权重接近零,而传统 ABLR 因过度使用基函数而出现过拟合。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。