Skip to main content
QUICK REVIEW

[论文解读] Auto-Sklearn 2.0: The Next Generation

Matthias Feurer, Katharina Eggensperger|arXiv (Cornell University)|Jul 8, 2020
Machine Learning and Data Classification参考文献 59被引用 67
一句话总结

该论文介绍了 Auto-sklearn 2.0,这是一个下一代自动化机器学习系统,通过简化的元学习方法、改进的迭代算法处理方式以及基于多臂赌博机的预算分配策略,显著提升了效率与性能。在 39 个基准数据集上的评估显示,与 Auto-sklearn 1.0 相比,其遗憾值最高降低了五倍。

ABSTRACT

Automated Machine Learning, which supports practitioners and researchers with the tedious task of manually designing machine learning pipelines, has recently achieved substantial success. In this paper we introduce new Automated Machine Learning (AutoML) techniques motivated by our winning submission to the second ChaLearn AutoML challenge, PoSH Auto-sklearn. For this, we extend Auto-sklearn with a new, simpler meta-learning technique, improve its way of handling iterative algorithms and enhance it with a successful bandit strategy for budget allocation. Furthermore, we go one step further and study the design space of AutoML itself and propose a solution towards truly hand-free AutoML. Together, these changes give rise to the next generation of our AutoML system, Auto-sklearn (2.0). We verify the improvement by these additions in a large experimental study on 39 AutoML benchmark datasets and conclude the paper by comparing to Auto-sklearn (1.0), reducing the regret by up to a factor of five.

研究动机与目标

  • 通过推进自动化管道构建技术,解决机器学习中手动设计管道的局限性。
  • 通过借鉴获奖的 ChaLearn 自动化机器学习挑战赛提交方案所启发的新技术,提升自动化机器学习的效率与性能。
  • 探索并优化自动化机器学习自身的设计空间,实现真正意义上的全自动操作。
  • 通过改进预算分配与元学习策略,降低超参数优化中的遗憾值。

提出的方法

  • 提出一种简化的元学习技术,以提升模型选择与管道配置的性能。
  • 通过自适应优化策略,改进对迭代式机器学习算法的处理方式。
  • 采用基于多臂赌博机的预算分配策略,动态分配计算资源至不同管道。
  • 扩展 Auto-sklearn 的架构,支持自动化、端到端的管道搜索与优化。
  • 借鉴 PoSH Auto-sklearn 挑战赛胜出经验,指导方法论的改进。

实验结果

研究问题

  • RQ1如何简化元学习以提升自动化机器学习性能,同时不增加复杂度?
  • RQ2改进的迭代算法处理方式对整体自动化机器学习效率有何影响?
  • RQ3基于多臂赌博机的预算分配策略是否能显著降低自动化机器学习管道搜索中的遗憾值?
  • RQ4在多大程度上可以系统性地探索自动化机器学习的设计空间,以实现真正意义上的全自动操作?

主要发现

  • 在 39 个基准数据集上,Auto-sklearn 2.0 相较于 Auto-sklearn 1.0,遗憾值最高降低了五倍。
  • 简化的元学习技术提升了模型选择的准确性,并减少了搜索时间。
  • 基于多臂赌博机的预算分配策略能有效优先选择有前景的管道,从而提升资源利用效率。
  • 对迭代算法的改进处理方式可加快收敛速度,并在复杂管道上实现更优性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。