[论文解读] Auto-WEKA: Automated Selection and Hyper-Parameter Optimization of Classification Algorithms
Auto-WEKA 提出了一套完全自动化的框架,通过贝叶斯优化在 WEKA 中全部 47 种分类器上联合选择最优的机器学习分类器及其超参数。与默认设置相比,它在 10 个 UCI 基准数据集上实现了更优的分类性能,证明了端到端自动化模型选择与超参数调优的可行性。
There exists a large variety of machine learning algorithms; as most of these can be configured via hyper-parameters, there is a staggeringly large number of possible alternatives overall. There has been a consid-erable amount of previous work on choosing among learning algorithms and, separately, on optimizing hyper-parameters (mostly when these are continuous and very few in number) in a given use context. However, we are aware of no work that addresses both problems together. Here, we demonstrate the feasibility of using a fully automated approach for choosing both a learning algorithm and its hyper-parameters, leveraging recent innovations in Bayesian optimization. Specifically, we apply this approach to the full range of classifiers implemented in WEKA, spanning 3 ensemble methods, 14 meta-methods, 30 base classifiers, and a wide range of hyper-parameter settings for each of these. On each of 10 popular data sets from the UCI repository, we show classification performance better than that of complete cross-validation over the default hyper-parameter settings of our 47 classification algorithms. We believe that our approach, which we dubbed Auto-WEKA, will enable typical users of machine learning algorithms to make better choices and thus to obtain better performance in a fully automated fashion. 1
研究动机与目标
- 为解决同时选择最佳学习算法及其超参数的挑战,该挑战此前尚未被共同探索。
- 使非专家用户无需手动调优或具备广泛的机器学习专业知识即可获得更优的分类性能。
- 证明在可扩展且高效的方式下,自动化整个算法选择与超参数优化流程的可行性。
- 在多种分类器和真实世界数据集上评估所提方法的性能。
- 表明自动化选择可在多个标准基准数据集上超越默认配置的性能。
提出的方法
- 该方法采用贝叶斯优化,在学习算法及其超参数的联合空间中进行搜索。
- 它利用了 WEKA 中全部 47 种分类器,包括 30 种基础分类器、14 种元方法和 3 种集成方法。
- 超参数搜索涵盖连续和离散超参数,每个配置通过交叉验证进行评估。
- 优化过程使用概率模型,高效引导搜索向有希望的配置方向进行。
- 该框架设计为完全自动化,在初始设置后无需用户干预。
- 通过 10 个标准 UCI 基准数据集评估性能,以确保泛化能力。
实验结果
研究问题
- RQ1一个完全自动化的系统是否能够联合优化分类器选择与超参数调优,从而优于默认配置?
- RQ2贝叶斯优化在复杂多样的分类器及其超参数组合的搜索空间中是否有效?
- RQ3所提方法是否在多种真实世界数据集中持续提升分类性能?
- RQ4该系统是否能实现优于对默认配置进行穷举交叉验证的结果?
- RQ5自动化在多大程度上减少了模型选择中对专家知识的需求?
主要发现
- Auto-WEKA 在所有 10 个 UCI 基准数据集上均实现了优于对默认超参数设置进行完整交叉验证的分类性能。
- 该框架在无人干预的情况下成功识别出更优的模型与超参数,证明了端到端自动化的可行性。
- 该方法在多种分类器类型(包括基础、元和集成方法)上均优于默认配置。
- 贝叶斯优化有效导航了算法与超参数组合的高维搜索空间。
- 结果表明,对算法与超参数进行联合优化,相比单独调优任一组件,能带来显著的性能提升。
- 该系统使普通用户无需掌握机器学习配置的专业知识即可获得更优性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。