[论文解读] AMLB: an AutoML Benchmark
AMLB 引入一个开源、可扩展的基准测试和工具集,用于比较 9 个 AutoML 框架,在 71 个分类任务和 33 个回归任务上,分析准确性、推理时间和失败情况。
Comparing different AutoML frameworks is notoriously challenging and often done incorrectly. We introduce an open and extensible benchmark that follows best practices and avoids common mistakes when comparing AutoML frameworks. We conduct a thorough comparison of 9 well-known AutoML frameworks across 71 classification and 33 regression tasks. The differences between the AutoML frameworks are explored with a multi-faceted analysis, evaluating model accuracy, its trade-offs with inference time, and framework failures. We also use Bradley-Terry trees to discover subsets of tasks where the relative AutoML framework rankings differ. The benchmark comes with an open-source tool that integrates with many AutoML frameworks and automates the empirical evaluation process end-to-end: from framework installation and resource allocation to in-depth evaluation. The benchmark uses public data sets, can be easily extended with other AutoML frameworks and tasks, and has a website with up-to-date results.
研究动机与目标
- 促进 AutoML 框架的标准化、可重复基准测试,以避免常见的评估陷阱。
- 提供一个开放工具,自动化框架安装、资源分配和实证评估。
- 在大量任务中评估多项性能指标,包括准确性、推理时间权衡和失败分析。
- 提供与多种 AutoML 框架以及开放数据集的可扩展集成,具有广泛适用性。
提出的方法
- 将 AMLB 作为一个开放基准引入,具备可扩展的与 AutoML 框架的集成接口。
- 在受控资源预算下,对 9 个知名的开源 AutoML 框架在 71 个分类任务和 33 个回归任务上进行评估。
- 使用多重指标分析框架差异:最终模型准确性、推理时间和失败分析。
- 使用 Bradley-Terry 树识别框架排名不同的任务子集。
- 提供一个开源基准测试工具,自动化从安装到评估和结果可视化的端到端过程。
实验结果
研究问题
- RQ1在多样化的表格任务集合中,常见的 AutoML 框架在预测准确性方面有何比较?
- RQ2在标准化预算下,框架之间在准确性和推理时间之间有哪些权衡?
- RQ3在哪些任务子集中,框架排名会有所不同,如通过如 Bradley-Terry 树等高级分析所揭示?
主要发现
- 该基准在 71 个分类任务和 33 个回归任务上评估 9 个 AutoML 框架。
- 框架比较考虑准确性、推理时间权衡和观察到的失败。
- Bradley-Terry 树识别出相对框架排名不同的任务子集。
- 一个开源的 AMLB 工具可与多个框架集成并自动化端到端评估和报告。
- 该基准支持可重复评估和与开放数据集及新框架的可扩展集成。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。