[论文解读] A Closer Look at Deep Learning Methods on Tabular Datasets
提供一个覆盖 300 个表格数据集的大规模基准测试,将深度表格方法与基于树的方法进行比较,分析训练动态,并引入用于高效表格研究的微型基准。
Tabular data is prevalent across diverse domains in machine learning. With the rapid progress of deep tabular prediction methods, especially pretrained (foundation) models, there is a growing need to evaluate these methods systematically and to understand their behavior. We present an extensive study on TALENT, a collection of 300+ datasets spanning broad ranges of size, feature composition (numerical/categorical mixes), domains, and output types (binary, multi--class, regression). Our evaluation shows that ensembling benefits both tree-based and neural approaches. Traditional gradient-boosted trees remain very strong baselines, yet recent pretrained tabular models now match or surpass them on many tasks, narrowing--but not eliminating--the historical advantage of tree ensembles. Despite architectural diversity, top performance concentrates within a small subset of models, providing practical guidance for method selection. To explain these outcomes, we quantify dataset heterogeneity by learning from meta-features and early training dynamics to predict later validation behavior. This dynamics-aware analysis indicates that heterogeneity--such as the interplay of categorical and numerical attributes--largely determines which family of methods is favored. Finally, we introduce a two-level design beyond the 300 common-size datasets: a compact TALENT-tiny core (45 datasets) for rapid, reproducible evaluation, and a TALENT-extension suite targeting high-dimensional, many-class, and very large-scale settings for stress testing. In summary, these results offer actionable insights into the strengths, limitations, and future directions for improving deep tabular learning.
研究动机与目标
- 在大规模、多样化的表格数据集上评估最先进的深度表格方法与基于树的方法的性能。
- 分析深度表格模型的训练动态,并从初始验证曲线和数据集元特征预测最终性能。
- 识别有利于深度方法与基于树的方法的数据集属性,并推导出微型基准以促进未来的表格研究。
- 提供关于编码策略及影响深度表格模型在跨领域成功因素的见解。
提出的方法
- 构建一个包含二分类、多分类和回归的 300 个表格数据集的基准,数据来自 UCI、OpenML 和 Kaggle。
- 使用 Optuna 进行超参数调优,在 100 次试验和 15 个种子上评估一系列方法(经典、基于树的集成和深度表格模型)。
- 记录训练动态(损失、准确率/均方根误差随轮次变化)并定义一个任务,从数据集元特征和初始曲线值预测验证曲线的演变。
- 提出一个曲线族参数形式 a_theta(t) = A log t + B sqrt(t) + C + D/t,并从数据集特征和早期轮次数据学习一个映射到曲线参数的元映射。
- 提取两个微型基准(大小为 15%)以便进行聚焦分析,以及一个排序一致的子集以实现轻量级研究。
- 研究特征编码策略(PLE-Q、PLE-T)在不同数据集子集上的影响(树友好型 vs DNN 友好型)。
实验结果
研究问题
- RQ1在大规模、多样化的表格数据集集合中,深度表格方法在平均性能排序上与基于树的方法相比如何?
- RQ2深度表格模型会出现哪些训练动态模式,初始验证曲线是否能预测最终性能?
- RQ3哪些数据集元特征影响深度表格方法相对于基于树的方法的成功?
- RQ4微型基准是否能可靠地反映完整基准的排名趋势,并帮助分析编码策略?
主要发现
- CatBoost 在大多数分类和回归任务中取得了最佳平均排名。
- 在深度表格方法中,TabR 往往表现最佳,但需要较高的训练成本。
- 超参数调优显著提高了多任务中许多方法的平均排名。
- 深度表格方法通常更受益于规模更大或更复杂的数据集,CatBoost 在较大数据集上表现出色。
- 使用初始曲线数据和数据集元特征进行训练动态预测可以准确拟合验证曲线,并支持有效的早停。
- 微型基准揭示了树基方法与深度方法各自擅长的不同区域,并显示编码策略(PLE)在树友好型数据集上更有帮助。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。