[论文解读] AutoGluon-Tabular: Robust and Accurate AutoML for Structured Data
AutoGluon-Tabular 是一个开源的用于表格数据的 AutoML 框架,采用多层堆叠和重复袋化来在最少用户输入下提供健壮的高精度预测,在基准测试中优于若干现有 AutoML 平台。
We introduce AutoGluon-Tabular, an open-source AutoML framework that requires only a single line of Python to train highly accurate machine learning models on an unprocessed tabular dataset such as a CSV file. Unlike existing AutoML frameworks that primarily focus on model/hyperparameter selection, AutoGluon-Tabular succeeds by ensembling multiple models and stacking them in multiple layers. Experiments reveal that our multi-layer combination of many models offers better use of allocated training time than seeking out the best. A second contribution is an extensive evaluation of public and commercial AutoML platforms including TPOT, H2O, AutoWEKA, auto-sklearn, AutoGluon, and Google AutoML Tables. Tests on a suite of 50 classification and regression tasks from Kaggle and the OpenML AutoML Benchmark reveal that AutoGluon is faster, more robust, and much more accurate. We find that AutoGluon often even outperforms the best-in-hindsight combination of all of its competitors. In two popular Kaggle competitions, AutoGluon beat 99% of the participating data scientists after merely 4h of training on the raw data.
研究动机与目标
- 在尽可能少的用户输入下,为结构化/表格数据实现端到端的机器学习自动化。
- 提供健壮的数据预处理,能够处理异构数据集和缺失值。
- 开发并评估一种多层模型集成策略,在时间约束下最大化预测准确性。
- 在多样化基准测试上评估 AutoML 相对于现有平台的表现。
提出的方法
- One-line fit API:对数据进行预处理、推断任务类型、划分数据、训练多种模型,并构建优化后的集成模型。
- 两阶段数据处理:模型无关的预处理和模型特定的预处理,处理文本、缺失值和类别特征。
- 使用包含神经网络、LightGBM、CatBoost、随机森林、极端随机树和 KNN 在内的预定义模型集合。
- 一种神经网络架构,对分类变量应用逐特征嵌入,并具备跳跃连接输出。
- 一种新颖的多层堆叠集成,基模型跨层输入到堆叠器,输入特征与前一层预测拼接(跳跃连接)。
- 重复的 k 折袋装(n 次重复)以产生折外预测并降低过拟合,跨重复取平均以提高稳定性。
- 一种训练策略,对每个堆叠层的时间进行预算,定期检查进度,并容忍模型失败以实现容错。
实验结果
研究问题
- RQ1在固定时间预算下,AutoGluon-Tabular 相较于其他 AutoML 框架在多样化的表格数据集上表现如何?
- RQ2相较于传统的基于 CASH 的 AutoML 方法,多层堆叠结合重复 k 折袋装是否能提高准确性和鲁棒性?
- RQ3AutoGluon-Tabular 是否能够在不进行人工特征工程的情况下,自动处理包含混合类型和缺失值的原始表格数据?
- RQ4在表格 AutoML 集成中,所提出的神经网络嵌入和跳跃连接带来的经验增益有哪些?
主要发现
- 在一组包含 50 个 Kaggle/OpenML 任务的测试中,AutoGluon 速度更快、鲁棒性更高、且准确性高于若干 AutoML 框架。
- 在基准数据集上,它通常超越所有竞争框架的事后最佳组合。
- 在 Kaggle 竞赛中,在原始数据上训练 4 小时后,AutoGluon 击败了 99% 的参与数据科学家。
- AutoGluon 在基准测试中在遵守指定时间预算(1 小时、4 小时及更长时间)方面保持高准确性,并且训练失败更少。
- 消融研究表明,移除组件(重复袋装、多层堆叠、袋装、网络特征)都会降低性能,凸显了它们的重要性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。