[论文解读] Tabular Benchmarks for Joint Architecture and Hyperparameter Optimization
本文通过在四个回归数据集上穷举评估一个固定的两层前馈网络,提供便宜的、表格化的神经网络结构和超参数优化基准,从而实现对 HPO 方法的稳健、可重复比较。
Due to the high computational demands executing a rigorous comparison between hyperparameter optimization (HPO) methods is often cumbersome. The goal of this paper is to facilitate a better empirical evaluation of HPO methods by providing benchmarks that are cheap to evaluate, but still represent realistic use cases. We believe these benchmarks provide an easy and efficient way to conduct reproducible experiments for neural hyperparameter search. Our benchmarks consist of a large grid of configurations of a feed forward neural network on four different regression datasets including architectural hyperparameters and hyperparameters concerning the training pipeline. Based on this data, we performed an in-depth analysis to gain a better understanding of the properties of the optimization problem, as well as of the importance of different types of hyperparameters. Second, we exhaustively compared various different state-of-the-art methods from the hyperparameter optimization literature on these benchmarks in terms of performance and robustness.
研究动机与目标
- 通过现实且成本低廉的基准,促进对 HPO 方法的经验评估。
- 在大规模配置网格上表征优化问题的特性。
- 评估神经网络调参中架构超参数与训练超参数的重要性。
- 在标准化基准上比较一系列最先进的 HPO 方法。
- 提供数据和代码以实现神经 HPO/NAS 研究中的可重复实验。
提出的方法
- 构建一个包含四种架构选项和五个训练/超参数的大规模两层前馈神经网络配置网格,离散化后得到 62,208 个配置。
- 在四个 UCI 回归数据集(protein、slice、naval、Parkinson)上训练每个配置,采用 60/20/20 的训练/验证/测试划分,对特征和目标进行归一化。
- 对每个配置用不同的种子重复四次,并在各个时期记录训练/验证/测试误差、训练时间和参数数量。
- 使用 ECDF、跨预算的 Spearman 相关性以及 fANOVA 来分析数据集属性和超参数重要性,评估全局重要性与成对交互。
- 基准测试多种 HPO 方法(随机搜索、SMAC、TPE、Bohamiann、Regularized Evolution、Hyperband/BOHB、RL),每种方法进行 500 次独立运行,报告 regret 与鲁棒性。
实验结果
研究问题
- RQ1基准数据集所捕获的 HPO/NAS 搜索空间的经验属性与难度特征是什么?
- RQ2哪些超参数(及其交互作用)对跨数据集的最终性能影响最大?
- RQ3不同的 HPO 方法在这些表格化基准上的性能如何,它们的鲁棒性如何?
- RQ4在不同预算和数据集上,配置的排名是否保持稳定,从而支持有效的多保真优化?
- RQ5这些基准是否能支持对 HPO 方法的可重复评估和公平比较?
主要发现
- 在配置之间,最终误差有显著变异,一些达到很低的均方误差(MSE),而许多样本有更高的误差,形成离群。
- 初始学习率在平均意义上是一个高度重要的超参数,但在空间的某些区域高阶交互起主导作用。
- 当前最佳配置对某些超参数变化的鲁棒性较脆弱,激活函数选择(relu 与 tanh)尤为显著地影响。
- 最佳配置在不同数据集上变化适度,但某些参数(如初始学习率)在所有数据集上都保持稳定有效。
- 贝叶斯优化方法和多变量方法(BOHB)在早期优于随机搜索,后期收敛因内部模型而异;强化学习可达到最优的最终性能,但样本效率较低;基于强化的方法和 Bohamiann 展现出鲁棒性权衡。
- 在考虑所有配置时,跨数据集的配置排名相关,但仅对表现最好的部分相关性减弱,提示多任务数据使用的价值。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。