QUICK REVIEW

[论文解读] Bayesian Hyperparameter Optimization for Ensemble Learning

Julien-Charles Lévesque, Christian Gagné|arXiv (Cornell University)|May 20, 2016

Advanced Multi-Objective Optimization Algorithms参考文献 7被引用 35

一句话总结

本文通过在固定规模的集成模型中迭代调优单个分类器，同时考虑与现有模型的交互作用，提出了一种用于集成学习的贝叶斯超参数优化方法。该方法在多个数据集和模型族（包括SVM、多样化学习器和CIFAR-10上的卷积神经网络）上，以极低的计算开销显著提升了泛化准确率，优于标准贝叶斯优化或事后集成构建方法。

ABSTRACT

In this paper, we bridge the gap between hyperparameter optimization and ensemble learning by performing Bayesian optimization of an ensemble with regards to its hyperparameters. Our method consists in building a fixed-size ensemble, optimizing the configuration of one classifier of the ensemble at each iteration of the hyperparameter optimization algorithm, taking into consideration the interaction with the other models when evaluating potential performances. We also consider the case where the ensemble is to be reconstructed at the end of the hyperparameter optimization phase, through a greedy selection over the pool of models generated during the optimization. We study the performance of our proposed method on three different hyperparameter spaces, showing that our approach is better than both the best single model and a greedy ensemble construction over the models produced by a standard Bayesian optimization.

研究动机与目标

通过将贝叶斯优化与集成构建相结合，弥合超参数优化与集成学习之间的差距。
通过优化集成配置而非孤立地优化单个模型，提升泛化性能。
通过智能模型选择和交互感知调优，在最小化计算开销的同时最大化性能。
在多样化的超参数空间中评估该方法，包括SVM、多样化学习算法和深度神经网络。
证明通过贝叶斯方法进行的集成优化优于单模型优化和事后集成生成。

提出的方法

该方法维持一个固定规模的集成模型，并对每个分类器依次进行贝叶斯优化，使用基于与现有模型交互作用的性能观测结果。
在每次迭代中，通过在先前评估结果训练的高斯过程先验上最大化采集函数，选择新分类器的超参数。
通过轮转策略更新集成模型，确保探索的均衡性与交互感知的调优。
使用验证集上的交叉验证误差评估性能，零一律损失作为默认目标函数。
从优化过程中生成的模型中构建事后集成，采用基于验证准确率的贪心选择策略。
该方法重用先前训练的模型，降低了训练成本，同时通过策略性集成组合提升了泛化性能。

实验结果

研究问题

RQ1能否通过建模集成成员之间的交互作用，有效将贝叶斯超参数优化扩展到集成学习？
RQ2通过迭代的、交互感知的调优优化集成配置，是否能超越对单个模型的标准贝叶斯优化，实现更好的泛化性能？
RQ3所提出的集成优化方法与从经典贝叶斯优化生成的模型进行事后集成构建相比，表现如何？
RQ4该方法在包括SVM、多样化学习器和深度神经网络在内的多样化超参数空间中是否能保持性能优势？
RQ5与基线方法（如BO-best和BO-post）相比，性能提升是否具有统计显著性？

主要发现

所提出的集成优化（EO）方法在所有三个基准数据集上显著优于标准贝叶斯优化（BO）和事后集成构建（BO-post），Wilcoxon符号秩检验的p值均小于0.05。
在scikit-learn超参数空间中，EO的平均泛化误差为0.03，显著低于BO（0.05）和BO-best（0.05），Friedman检验的p值为1.5×10⁻⁵。
在CIFAR-10数据集上的卷积神经网络实验中，EO-post的泛化误差显著低于BO-post（p = 0.005），证明了该方法在深度学习场景下的有效性。
在letter（ltr）、musk-2（msk）和semeion（sem）等数据集上，该方法实现了显著的泛化误差下降，表明在具有挑战性的场景中性能增益明显。
轮转优化策略在与标准贝叶斯优化相比计算开销可忽略不计的情况下实现了性能提升。
从EO生成的模型中进行事后集成构建，其性能始终优于从标准BO生成的模型，证实了在优化过程中进行交互感知调优的价值。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。