Skip to main content
QUICK REVIEW

[论文解读] Layered TPOT: Speeding up Tree-based Pipeline Optimization

Pieter Gijsbers, Joaquin Vanschoren|arXiv (Cornell University)|Jan 18, 2018
Evolutionary Algorithms and Applications参考文献 13被引用 24
一句话总结

分层TPOT通过使用分层进化算法,在逐步增大的数据子集上评估候选机器学习流水线,从而加速TPOT中的流水线优化。它显著减少了运行时间——通常在200分钟内找到性能相当或更优的模型——且未牺牲模型质量,尤其在大规模数据集上表现更优。

ABSTRACT

With the demand for machine learning increasing, so does the demand for tools which make it easier to use. Automated machine learning (AutoML) tools have been developed to address this need, such as the Tree-Based Pipeline Optimization Tool (TPOT) which uses genetic programming to build optimal pipelines. We introduce Layered TPOT, a modification to TPOT which aims to create pipelines equally good as the original, but in significantly less time. This approach evaluates candidate pipelines on increasingly large subsets of the data according to their fitness, using a modified evolutionary algorithm to allow for separate competition between pipelines trained on different sample sizes. Empirical evaluation shows that, on sufficiently large datasets, Layered TPOT indeed finds better models faster.

研究动机与目标

  • 解决在TPOT中评估全量数据集流水线带来的高计算成本问题,这是AutoML中的主要瓶颈。
  • 在不牺牲模型性能的前提下,缩短优化流水线所需时间,尤其在大规模数据集上。
  • 通过分层评估优先选择有希望的候选流水线,实现更快收敛至高质量流水线。
  • 提升TPOT在大规模机器学习工作流中的实用性和可及性。
  • 探索分层进化设计对优化效率和流水线质量的影响。

提出的方法

  • 引入一种分层进化框架,其中每一层在逐步增大的数据子集上评估流水线。
  • 使用修改后的进化选择机制,防止在不同数据规模上训练的流水线之间直接进行适应度比较。
  • 仅将表现优异的流水线从一层传递到下一层,依据每层内部的相对适应度。
  • 在每层内应用标准的遗传编程操作(变异、交叉),并结合每层特有的数据采样策略。
  • 定义每层特有的代数和种群规模,实现在不同数据尺度上的自适应优化。
  • 使用一种传递机制,仅在个体在较小数据子集上表现出强性能后,才将其转移到更高层。

实验结果

研究问题

  • RQ1分层评估是否能在不降低模型质量的前提下,减少找到高性能机器学习流水线所需的时间?
  • RQ2在不同数据集上,分层TPOT在速度和流水线准确率方面与标准TPOT相比表现如何?
  • RQ3分层粒度和传递策略对优化效率和最终流水线质量有何影响?
  • RQ4在时间预算受限的情况下,分层TPOT是否在大规模数据集上优于TPOT?
  • RQ5在高层中,种群大小和代数等超参数如何影响速度与性能之间的权衡?

主要发现

  • 在大规模数据集上,分层TPOT(尤其是LTPOT-16)通常能在200分钟内找到与TPOT最佳结果相当甚至更优的流水线。
  • 当LTPOT找到至少与TPOT最终最佳结果相当的流水线时,TPOT的对应流水线在该时间点的AUROC通常低至少0.2。
  • LTPOT-2与TPOT在找到可比流水线的速度上相当,但LTPOT-16在小时间预算下表现出更快的收敛速度。
  • 在18个数据集和9个随机种子共162次比较中,LTPOT-16在时间点t的AUROC表现优于TPOT的多数情况。
  • 在长时间运行下,LTPOT-16的竞争力下降,表明在长周期运行中存在速度与最终性能之间的权衡。
  • 分层结构支持灵活的超参数调优,未来在流水线传递、种群规模和选择策略方面仍有进一步优化空间。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。