[论文解读] Auto-Sklearn 2.0: Hands-free AutoML via Meta-Learning
Auto-sklearn 2.0 引入了一种免提 AutoML 框架,通过元学习和组合成功减半(PoSH)自动处理自动化机器学习中的高层次设计决策。通过将基于元学习的配置选择与使用成功减半的预算分配策略相结合,其性能在 10 分钟内即可达到此前需 60 分钟才能实现的 Auto-sklearn 1.0 水平,相较于基准数据集,相对误差最高降低 4.5 倍。
Automated Machine Learning (AutoML) supports practitioners and researchers with the tedious task of designing machine learning pipelines and has recently achieved substantial success. In this paper, we introduce new AutoML approaches motivated by our winning submission to the second ChaLearn AutoML challenge. We develop PoSH Auto-sklearn, which enables AutoML systems to work well on large datasets under rigid time limits by using a new, simple and meta-feature-free meta-learning technique and by employing a successful bandit strategy for budget allocation. However, PoSH Auto-sklearn introduces even more ways of running AutoML and might make it harder for users to set it up correctly. Therefore, we also go one step further and study the design space of AutoML itself, proposing a solution towards truly hands-free AutoML. Together, these changes give rise to the next generation of our AutoML system, Auto-sklearn 2.0. We verify the improvements by these additions in an extensive experimental study on 39 AutoML benchmark datasets. We conclude the paper by comparing to other popular AutoML frameworks and Auto-sklearn 1.0, reducing the relative error by up to a factor of 4.5, and yielding a performance in 10 minutes that is substantially better than what Auto-sklearn 1.0 achieves within an hour.
研究动机与目标
- 为解决 AutoML 系统中高层次设计决策(如模型选择和预算分配)带来的可用性和性能瓶颈问题。
- 开发一种真正免提的 AutoML 系统,不仅自动化管道搜索,还自动化 AutoML 框架本身的配置。
- 在严格的时间限制下提升效率和性能,尤其适用于快速原型设计工作流中的实际部署。
- 通过基于数据集元特征的元学习自动选择最优 AutoML 设置,减少对专家调优的依赖。
- 通过利用元学习和自适应预算分配,在时间限制严格的情况下超越现有 AutoML 框架(包括 Auto-sklearn 1.0)的性能。
提出的方法
- 提出 PoSH Auto-sklearn,结合成功减半(SH)预算分配与模型选择策略(保留法或交叉验证),动态分配资源给有前景的管道。
- 采用基于算法选择的元学习技术,自动为给定数据集选择最佳 AutoML 配置(如保留法 vs. 交叉验证,完整预算 vs. 成功减半)。
- 利用在 OpenML 上 208 个数据集上训练的元学习器,为新数据集预测最优配置,从而消除手动调优的需要。
- 采用组合方法,同时并行评估多种配置,并利用性能反馈优化元学习决策。
- 采用类似多臂赌博机的预算分配策略,在时间约束下高效探索和利用有前景的配置。
- 采用无需元特征的元学习方法,避免依赖复杂的数据集描述符,提升泛化能力并降低设置开销。
实验结果
研究问题
- RQ1能否利用元学习自动为给定数据集选择 AutoML 系统的最佳配置(如模型选择和预算分配策略)?
- RQ2与固定或人工调优策略相比,将成功减半与元学习配置选择相结合,是否能在严格时间限制下提升性能?
- RQ3Auto-sklearn 2.0 在多大程度上能通过自动化不仅管道搜索,还包括 AutoML 系统自身超参数,实现真正免提操作?
- RQ4在预测性能和效率方面,Auto-sklearn 2.0 与 Auto-sklearn 1.0 及其他领先 AutoML 框架相比如何?
- RQ5所提出的元学习方法是否能在不依赖显式元特征的情况下,在多样化数据集上实现良好泛化?
主要发现
- 在时间约束下,Auto-sklearn 2.0 在 39 个基准数据集上的相对误差最高比 Auto-sklearn 1.0 降低 4.5 倍。
- 该系统在 10 分钟内实现的性能,是 Auto-sklearn 1.0 需要 60 分钟才能达到的,展现出显著的效率提升。
- PoSH Auto-sklearn 作为核心组件,通过成功减半更有效地分配资源,其性能优于 Auto-sklearn 1.0 的全预算配置。
- 基于元学习的配置选择显著提升了性能,能自动为每个数据集选择最优设置(如保留法 vs. 交叉验证、预算策略)。
- Auto-sklearn 2.0 在 39 个基准数据集上达到最先进性能,在严格时间限制下超越其他主流 AutoML 框架。
- 无需元特征的元学习方法实现了稳健且可泛化的配置选择,无需人工特征工程。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。