[论文解读] Auto-WEKA: Combined Selection and Hyperparameter Optimization of Classification Algorithms
Auto-WEKA 提出了一种完全自动化的、基于贝叶斯优化的框架,用于同时选择机器学习算法并调优其超参数,将算法选择视为一个超参数。它在21个多样化数据集上优于标准方法,尤其在大型数据集上表现更优,通过使用TPE和SMAC优化器探索了786维的搜索空间,其中SMAC在实际部署中表现更优。
Many different machine learning algorithms exist; taking into account each algorithm's hyperparameters, there is a staggeringly large number of possible alternatives overall. We consider the problem of simultaneously selecting a learning algorithm and setting its hyperparameters, going beyond previous work that addresses these issues in isolation. We show that this problem can be addressed by a fully automated approach, leveraging recent innovations in Bayesian optimization. Specifically, we consider a wide range of feature selection techniques (combining 3 search and 8 evaluator methods) and all classification approaches implemented in WEKA, spanning 2 ensemble methods, 10 meta-methods, 27 base classifiers, and hyperparameter settings for each classifier. On each of 21 popular datasets from the UCI repository, the KDD Cup 09, variants of the MNIST dataset and CIFAR-10, we show classification performance often much better than using standard selection/hyperparameter optimization methods. We hope that our approach will help non-expert users to more effectively identify machine learning algorithms and hyperparameter settings appropriate to their applications, and hence to achieve improved performance.
研究动机与目标
- 解决先前研究中被广泛忽视的联合算法选择与超参数优化问题(CASH)。
- 使非专家用户能够自动识别高性能的机器学习配置,而无需手动调优。
- 证明将算法选择视为超参数可有效利用现代贝叶斯优化方法进行搜索。
- 在多样化数据集上评估并比较Auto-WEKA与标准算法选择和超参数调优方法的性能。
- 通过实证分析识别数据集特定的算法和特征选择偏好。
提出的方法
- 将CASH问题形式化为分层超参数优化任务,将算法选择视为超参数。
- 利用基于树状结构帕尔兹估计器(TPE)和基于序列模型的算法配置(SMAC)的贝叶斯优化方法,搜索包含786维的算法、超参数和特征选择方法空间。
- 集成WEKA中可用的27种基础分类器、10种元方法、2种集成方法以及11种特征选择配置(3种搜索方法 + 8种评估器方法)。
- 使用k折交叉验证来估计模型性能并指导优化过程。
- 在21个数据集(包括UCI、KDD Cup 09、MNIST变体和CIFAR-10)上聚合结果,以评估泛化性能。
- 根据不同运行和优化器中算法与特征选择配置的选取频率,对选择结果进行排序,以揭示与数据集相关的偏好。
实验结果
研究问题
- RQ1一个完全自动化的系统能否有效搜索学习算法与超参数的联合空间,以找到高性能的配置?
- RQ2Auto-WEKA在多样化数据集上的性能与标准的孤立算法选择和超参数调优方法相比如何?
- RQ3在CASH背景下,TPE与SMAC哪种贝叶斯优化方法能产生更好的结果?
- RQ4Auto-WEKA在算法和特征选择配置上是否存在数据集特定的偏好?
- RQ5Auto-WEKA基于数据驱动的特征选择方法选择是否反映了小数据集与大数据集的有效正则化策略?
主要发现
- Auto-WEKA 显著优于标准算法选择和超参数调优方法,尤其在大型数据集(如CIFAR-10和KDD Cup 09)上表现更优。
- 基于SMAC的Auto-WEKA变体在所有测试中均表现出更优性能,因此被推荐用于实际部署。
- 没有单一的基础分类器在选择过程中占主导地位;随机森林、SVM和单层感知机各自在约12%的案例中被选中。
- 对于大型数据集,AdaBoostM1和随机子空间等元方法更常被选择,REP树和决策表常作为基础学习器。
- 特征选择在小数据集上更常被应用,其中ranker搜索方法和信息增益评估器是最受欢迎的选择。
- Auto-WEKA 内部的交叉验证过程实现了基于数据的特征选择,对小数据集使用正则化,对大数据集则采用全特征学习。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。