QUICK REVIEW

[论文解读] Autostacker: A Compositional Evolutionary Learning System

Boyuan Chen, Harvey Wu|arXiv (Cornell University)|Mar 2, 2018

Machine Learning and Data Classification参考文献 24被引用 31

一句话总结

Autostacker 是一种 AutoML 系统，采用分层堆叠架构和进化算法，无需领域知识或预处理即可自动发现高性能机器学习流水线。在 15 个数据集上，其在准确率和时间效率方面均达到最先进或具有竞争力的性能，平均优于随机森林、TPOT 和 AutoSklearn。

ABSTRACT

We introduce an automatic machine learning (AutoML) modeling architecture called Autostacker, which combines an innovative hierarchical stacking architecture and an Evolutionary Algorithm (EA) to perform efficient parameter search. Neither prior domain knowledge about the data nor feature preprocessing is needed. Using EA, Autostacker quickly evolves candidate pipelines with high predictive accuracy. These pipelines can be used as is or as a starting point for human experts to build on. Autostacker finds innovative combinations and structures of machine learning models, rather than selecting a single model and optimizing its hyperparameters. Compared with other AutoML systems on fifteen datasets, Autostacker achieves state-of-art or competitive performance both in terms of test accuracy and time cost.

研究动机与目标

自动化端到端的机器学习流水线设计过程，包括模型选择和超参数优化，无需手动特征工程或领域专业知识。
通过在所有堆叠层中保留原始数据并添加合成特征，提升小样本和稀疏数据集上的泛化能力。
通过支持多样化机器学习原原子的灵活堆叠，探索比单模型优化框架更广泛的模型组合搜索空间。
通过将模型架构、超参数和组件配置作为可调变量，利用进化算法加速流水线发现。
为实践者和专家提供稳健、快速且准确的基线，优于现有 AutoML 系统在多样化基准数据集上的表现。

提出的方法

Autostacker 采用分层堆叠架构，其中每一层处理前一层所有模型预测结果与原始特征的拼接。
它使用进化算法（EA）在超参数空间中进行搜索，包括层数、每层模型数量、模型类型以及各模型的独立超参数。
该系统将整个流水线视为一个整体进行演化，从而发现复杂且组合式的模型结构，而非仅优化单一模型。
在每一层，将各模型预测生成的合成特征与原始数据集拼接，通过级联特征工程实现更深层次的表征学习。
进化过程通过选择、交叉和变异操作演化流水管线群体，适应度由验证准确率决定。
该框架支持动态配置，用户可指定最大层数和每层节点数，或让 Autostacker 将其作为超参数进行调优。

实验结果

研究问题

RQ1进化算法能否在不依赖手动特征工程或领域特定知识的情况下，有效搜索高性能、组合式的机器学习流水线？
RQ2一种保留原始数据并逐步添加合成特征的分层堆叠架构，在小样本和稀疏数据集上如何提升性能？
RQ3AutoML 系统在预测准确率和计算效率方面，能在多大程度上超越 TPOT 和 AutoSklearn 等现有框架？
RQ4允许多样化机器学习原原子组合的模型灵活性，对流水线性能和在多样化数据集上的泛化能力有何影响？
RQ5与基于贝叶斯优化的 AutoML 系统相比，该进化搜索策略在速度和准确率方面表现如何？

主要发现

在全部 15 个数据集上，Autostacker 的测试准确率比随机森林基线高出 100%，其中 12 个数据集优于 TPOT。
在 9 个数据集上，Autostacker 超过了 AutoSklearn，后者在 heart-h 和 wine-recognition 数据集上未能超越基线性能。
与 TPOT 相比，Autostacker 将时间成本降低了最多 6 倍，尤其在较大的数据集（如 dis，3772 个样本）上表现突出，实现了最高测试准确率。
该系统在所有数据集上均表现出稳健性能，包括 TPOT 和 AutoSklearn 未能超越随机森林基线的数据集。
在准确率和速度方面，Autostacker 在所有基线中平均表现最优，基于三轮实验中每轮前 10 名流水线的 30 次测试结果。
尽管表现优异，AutoSklearn 在三个数据集（Hill_Valley、allhypo、vehicle）上仍优于 Autostacker，表明在特定大规模数据场景下可能存在优势。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。