Skip to main content
QUICK REVIEW

[论文解读] A Comprehensive Benchmark of Machine and Deep Learning Across Diverse Tabular Datasets

Assaf Shmuel, Oren Glickman|arXiv (Cornell University)|Aug 27, 2024
Machine Learning and Data Classification被引用 6
一句话总结

该论文对111个表格数据集进行了20种模型(DL和ML)的基准测试,以识别何时DL能超过传统ML,结果显示ML通常更优但详述条件并提出一个元模型,其预测DL优势的准确率为86.1%。

ABSTRACT

The analysis of tabular datasets is highly prevalent both in scientific research and real-world applications of Machine Learning (ML). Unlike many other ML tasks, Deep Learning (DL) models often do not outperform traditional methods in this area. Previous comparative benchmarks have shown that DL performance is frequently equivalent or even inferior to models such as Gradient Boosting Machines (GBMs). In this study, we introduce a comprehensive benchmark aimed at better characterizing the types of datasets where DL models excel. Although several important benchmarks for tabular datasets already exist, our contribution lies in the variety and depth of our comparison: we evaluate 111 datasets with 20 different models, including both regression and classification tasks. These datasets vary in scale and include both those with and without categorical variables. Importantly, our benchmark contains a sufficient number of datasets where DL models perform best, allowing for a thorough analysis of the conditions under which DL models excel. Building on the results of this benchmark, we train a model that predicts scenarios where DL models outperform alternative methods with 86.1% accuracy (AUC 0.78). We present insights derived from this characterization and compare these findings to previous benchmarks.

研究动机与目标

  • 在111个表格数据集上的回归和分类任务中,对多样化的ML和DL模型进行性能评估。
  • 识别与DL优于ML模型相关的数据集特征(特征元特征)。
  • 开发一个元学习模型,以在新表格数据集上预测DL何时会优于ML,从而为表格数据的模型选择提供依据。
  • 提供可解释的洞察,说明哪些数据集特征影响DL与ML的性能。

提出的方法

  • 基准测试111个表格数据集(57个回归,54个分类)。
  • 评估20个模型:7个基于DL,7个基于树的集成ML模型,另有6个其他模型。
  • 使用10折交叉验证计算回归的RMSE/MAE/R^2,以及分类的准确率/AUC/F1。
  • 对模型进行整体排序及按组(TE/ML与DL)排序。
  • 用20个元特征对数据集进行刻画,以训练元学习模型,预测DL或ML表现更好(A*)。
  • 估计一个可解释的模型(逻辑回归和符号回归)来解释DL与ML预测因子。

实验结果

研究问题

  • RQ1在那些数据集上,深度学习模型在表格数据上优于传统ML模型?
  • RQ2哪些数据集特征(元特征)与DL具有优势相关?
  • RQ3一个元学习模型是否能够在新的表格数据集上准确预测DL何时会超越ML?

主要发现

模型组别最佳模型数量# 平均排名中位数排名前3名模型中的数量
AutoGluonOther394.8458
SVMOther1012.41415
ResNetDL79.71013
CatBoostTE76.6535
LightGBMTE66.9633
H2O-GBMTE68.6818
TPOTTE57.7723
AutoGluon-DLDL58.7821
H2O-DLDL411.51111
gplearnOther315177
MLPDL39.61013
LROther311.61316
XGBoostTE38.4819
Random ForestTE38.5820
DCNV2DL311.61210
AdaBoostTE112.3135
FT-TransformerDL013.9141
TabNetDL017.2180
  • 在111个数据集上,ML模型,特别是基于树的集成模型,通常优于DL模型。
  • AutoGluon(一个集成AutoML方法)是整体性能最好的模型,在39/111个数据集上胜出其他模型。
  • DL模型在少数数据集上达到最佳性能(例如,顶级DL条目为11/111;在本研究中TabNet表现最差)。
  • 一个能够预测DL优势的元学习模型在完整的元数据集上达到86.1%的准确率(AUC 0.78),逻辑回归提供可解释的基线(AUC 0.68)。
  • 在DL优势方面,分类任务略多于回归任务。
  • 数据集峰度(Kurtosis)是DL优势的重要预测因子;高峰度与更高DL效用相关。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。