QUICK REVIEW

[论文解读] An Open Source AutoML Benchmark

Pieter Gijsbers, Erin LeDell|arXiv (Cornell University)|Jul 1, 2019

Machine Learning and Data Classification参考文献 10被引用 48

一句话总结

本文提出一个开源、可扩展的 AutoML 基准框架，并使用它在 39 个数据集上比较四个 AutoML 系统，强调没有单一工具主导，且某些数据集对当前 AutoML 方法仍具挑战性。

ABSTRACT

In recent years, an active field of research has developed around automated machine learning (AutoML). Unfortunately, comparing different AutoML systems is hard and often done incorrectly. We introduce an open, ongoing, and extensible benchmark framework which follows best practices and avoids common mistakes. The framework is open-source, uses public datasets and has a website with up-to-date results. We use the framework to conduct a thorough comparison of 4 AutoML systems across 39 datasets and analyze the results.

研究动机与目标

促进对 AutoML 工具的公平、可扩展基准测试，避免在小规模、静态数据集集合上过拟合。
提供一个开放框架和网站，以实现最新的 AutoML 比较。
在具有不同规模和特征类型的多样化数据集上评估多种 AutoML 系统。
向社区传达当前 AutoML 方法的优点与局限，以指导未来研究。

提出的方法

开发一个开放、可拓展的基准框架，包含公共数据集及一个配套网站，用于最新结果。
在 39 个分类数据集上记录基准，数据集在规模、特征类型和缺失值方面各异。
使用标准化指标（二元分类用 AUROC，多分类用对数损失）并采用十折交叉验证。
固定资源约束（AWS m5.2xlarge 或等效配置），以实现可重复的比较。
在默认超参数值和预定义资源预算下评估 AutoML 工具，以反映典型使用场景；并与诸如常数预测器和随机森林变体的基线进行比较。

实验结果

研究问题

RQ1在多样化的真实世界分类数据集上，不同 AutoML 系统的表现如何？
RQ2在实际资源预算下，AutoML 工具是否一贯优于未调优或已调优的随机森林等简单基线？
RQ3哪些数据集特征（如规模、特征类型、类别不平衡）会影响 AutoML 系统的相对性能？
RQ4在更长时间预算下对 AutoML 工具进行基准测试时，是否存在过拟合或内存管理问题的证据？

主要发现

没有任何一个 AutoML 系统在所有数据集和任务上持续优于其他系统。
某些数据集在框架之间存在显著差异，而其他数据集相较于经过调优的随机森林仅带来微小提升。
Auto-WEKA 在多类问题上进行较长时间预算的运行时出现过拟合迹象。
在若干数据集上，所有 AutoML 工具均不及随机森林基线，尤其是在高维或高度多类问题上。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。