QUICK REVIEW

[论文解读] Benchmark and Survey of Automated Machine Learning Frameworks

Marc-André Zöller, Marco F. Huber|arXiv (Cornell University)|Apr 26, 2019

Machine Learning and Data Classification被引用 16

一句话总结

本文对14种自动化机器学习（AutoML）框架和8种超参数优化（HPO）算法在137个真实世界数据集上进行了全面的综述与基准测试。它在73个数据集上评估了AutoML框架，在137个数据集上评估了HPO方法，提供了迄今为止最全面的独立基准测试，揭示了当前AutoML方法在经典机器学习流水线中的性能差异与局限性。

ABSTRACT

Machine learning (ML) has become a vital part in many aspects of our daily life. However, building well performing machine learning applications requires highly specialized data scientists and domain experts. Automated machine learning (AutoML) aims to reduce the demand for data scientists by enabling domain experts to build machine learning applications automatically without extensive knowledge of statistics and machine learning. This paper is a combination of a survey on current AutoML methods and a benchmark of popular AutoML frameworks on real data sets. Driven by the selected frameworks for evaluation, we summarize and review important AutoML techniques and methods concerning every step in building an ML pipeline. The selected AutoML frameworks are evaluated on 137 data sets from established AutoML benchmark suits.

研究动机与目标

提供对当前AutoML技术的全面综述，涵盖机器学习流水线构建的所有阶段，包括预处理、特征工程、模型选择和超参数调优。
在137个真实世界数据集上对八种HPO算法进行独立、大规模的基准测试，提供首次对HPO方法在隔离状态下进行的全面评估。
在73个真实数据集上对六种AutoML框架进行实证评估，以比较其在不同数据特征下的性能、效率和鲁棒性。
识别当前AutoML系统在自动化复杂流水线结构和可扩展性方面的局限性及开放的研究问题。
为自动化机器学习流水线合成提出数学公式，并与文献中现有的问题公式进行比较。

提出的方法

作者在OpenML提供的标准化基准数据集上，评估了14种AutoML和HPO框架，包括auto-sklearn、H2O AutoML、TPOT、ATM、BOHB、SMAC、hyperopt和Optunity。
在HPO基准测试中，使用137个真实世界数据集，采用标准分类指标，对比了八种算法：随机搜索、贝叶斯优化（BOHB、SMAC、BOHB）、树状结构帕尔兹估计器（TPE）、Hyperopt、Optuna和RoBO。
AutoML框架评估使用了73个来自OpenML的数据集，通过所有框架的平均准确率和运行时间进行测量，并通过Wilcoxon符号秩检验评估统计显著性。
提出了一种自动化机器学习流水线合成的数学公式，将流水线结构搜索、算法选择和超参数优化统一整合在一个框架中。
研究采用成对比较策略，使用Bland-Altman图和散点图可视化不同框架与HPO方法之间的性能差异。
评估包括对缺失或失败运行（标记为‘–’）的处理，结果报告包含置信区间和统计显著性检验。

实验结果

研究问题

RQ1不同HPO算法（如贝叶斯优化、随机搜索、TPE）在多样化的真实世界数据集上的预测性能和效率如何比较？
RQ2在广泛的真实世界分类任务中，哪些AutoML框架在平均准确率和收敛速度方面表现最佳？
RQ3当前AutoML框架在处理复杂或高维数据方面存在哪些局限性？它们在不同数据类型下的鲁棒性如何比较？
RQ4AutoML框架在多大程度上实现了完整流水线的自动化，包括特征工程、预处理和模型选择，而无需领域专业知识？
RQ5HPO方法的性能特征在不同数据集大小、类别不平衡和特征复杂度下如何变化？

主要发现

在137个数据集上，BOHB（贝叶斯优化Hyperband）在HPO算法中实现了最高平均准确率（0.82910），显著优于随机搜索和其他基线方法。
auto-sklearn和H2O AutoML表现出强劲的整体性能，其中auto-sklearn在73个数据集上的平均准确率为0.81075，位列顶尖框架之中。
尽管结构简单，随机搜索在许多情况下表现具有竞争力，与先进贝叶斯优化方法相比仅出现轻微性能下降。
多个框架（如TPOT和hyperopt-sklearn）表现出较高的性能方差，部分在10%–15%的数据集上未能生成有效流水线（标记为‘–’）。
研究发现，依赖神经架构搜索或深度学习组件的框架（如TPOT）在小型或表格型数据集上稳定性较差，常出现无法收敛的情况。
统计分析显示，SMAC和BOHB始终处于高性能HPO方法前列，其中SMAC在与其他方法比较中表现出最多的统计显著优势。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。