[论文解读] ReConTab: Regularized Contrastive Representation Learning for Tabular Data
ReConTab 引入了一种基于 Transformer 的正则化自编码器,结合自监督和半监督对比学习,用于提取稳健的表格嵌入,提升下游分类器的性能,并可作为传统模型的即插即用特征。
Representation learning stands as one of the critical machine learning techniques across various domains. Through the acquisition of high-quality features, pre-trained embeddings significantly reduce input space redundancy, benefiting downstream pattern recognition tasks such as classification, regression, or detection. Nonetheless, in the domain of tabular data, feature engineering and selection still heavily rely on manual intervention, leading to time-consuming processes and necessitating domain expertise. In response to this challenge, we introduce ReConTab, a deep automatic representation learning framework with regularized contrastive learning. Agnostic to any type of modeling task, ReConTab constructs an asymmetric autoencoder based on the same raw features from model inputs, producing low-dimensional representative embeddings. Specifically, regularization techniques are applied for raw feature selection. Meanwhile, ReConTab leverages contrastive learning to distill the most pertinent information for downstream tasks. Experiments conducted on extensive real-world datasets substantiate the framework's capacity to yield substantial and robust performance improvements. Furthermore, we empirically demonstrate that pre-trained embeddings can seamlessly integrate as easily adaptable features, enhancing the performance of various traditional methods such as XGBoost and Random Forest.
研究动机与目标
- 推动对表格数据的自动特征工程,以减少人工特征选择与工程。
- 开发基于 Transformer 的非对称自编码器,从原始表格特征中生成低维、任务无关的嵌入。
- 结合正则化与对比学习,提炼下游任务的显著信息。
- 证明预训练嵌入可以提升传统模型(如 XGBoost、随机森林 Random Forest)的性能,并作为即插即用特征使用。
提出的方法
- 提出一种带输入权重正则化的非对称自编码器架构,以促进稳健且非冗余的表示。
- 将特征损坏作为数据增强技术,以促使不变性和稳健的嵌入学习。
- 在损坏的输入上使用自监督重构损失来训练编码器和解码器。
- 通过添加分类损失和对比损失将其扩展到半监督学习,使嵌入与同标签对对齐、与不同标签对分离。
- 在下游任务上对预训练的编码器进行端到端微调,或将提炼出的嵌入与原始特征连接,作为可插拔输入。
实验结果
研究问题
- RQ1正则化对比表示学习能否提升表格数据嵌入的质量与鲁棒性?
- RQ2ReConTab 的预训练嵌入是否能提升传统分类器的性能并实现即插即用的改进?
- RQ3基于损坏的数据增强和半监督对比学习如何影响多样化表格数据集的下游任务性能?
主要发现
- ReConTab 在多样化表格数据集上显著优于深度学习基线。
- 预训练嵌入可以显著提升传统模型,如 XGBoost、Random Forest、LightGBM,尤其当用作即插即用特征时。
- 结合正则化与对比损失的自监督与半监督学习可产生适用于分类任务的稳健表示。
- 消融研究表明,损坏比率约为 0.3 通常能带来较强的性能,但会随数据集而异。
- 该框架在二分类和多分类任务中保持竞争力,某些数据集在深度学习方法中表现出行业领先的结果。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。