[论文解读] Rethinking Data Augmentation for Tabular Data in Deep Learning
该论文提出一种新颖的表格数据增强方法,称为 Mask Token Replacement (MTR),用于基于 Transformer 的表格模型,在监督和自监督设置下与现有增强方法在 13 个数据集上具有竞争力,并分析何时最有效。
Tabular data is the most widely used data format in machine learning (ML). While tree-based methods outperform DL-based methods in supervised learning, recent literature reports that self-supervised learning with Transformer-based models outperforms tree-based methods. In the existing literature on self-supervised learning for tabular data, contrastive learning is the predominant method. In contrastive learning, data augmentation is important to generate different views. However, data augmentation for tabular data has been difficult due to the unique structure and high complexity of tabular data. In addition, three main components are proposed together in existing methods: model structure, self-supervised learning methods, and data augmentation. Therefore, previous works have compared the performance without comprehensively considering these components, and it is not clear how each component affects the actual performance. In this study, we focus on data augmentation to address these issues. We propose a novel data augmentation method, $ extbf{M}$ask $ extbf{T}$oken $ extbf{R}$eplacement ($ exttt{MTR}$), which replaces the mask token with a portion of each tokenized column; $ exttt{MTR}$ takes advantage of the properties of Transformer, which is becoming the predominant DL-based architecture for tabular data, to perform data augmentation for each column embedding. Through experiments with 13 diverse public datasets in both supervised and self-supervised learning scenarios, we show that $ exttt{MTR}$ achieves competitive performance against existing data augmentation methods and improves model performance. In addition, we discuss specific scenarios in which $ exttt{MTR}$ is most effective and identify the scope of its application. The code is available at https://github.com/somaonishi/MTR/.
研究动机与目标
- 评估使用 Transformer 基于模型时,针对表格数据的各种数据增强方法的有效性。
- 引入新的增强方法 Mask Token Replacement (MTR),针对列级令牌嵌入进行了定制。
- 在多样化数据集的监督和自监督设置下,将 MTR 与现有增强方法进行比较。
- 识别在何种场景和数据集特性下,MTR 提供最大收益及其局限性。
提出的方法
- 通过一个 Tokenizer 将表格输入表示为列嵌入序列,并在 Transformer 中使用一个 [cls] token。
- 通过根据伯努利掩码 p_m 将嵌入序列的一部分替换为可学习的 [mask] token 来引入 MTR。
- 使用 FTTransformer 作为基础模型进行训练和评估,采用标准数据预处理(数值特征的分位变换,分类特征的序数编码)。
- 在监督和自监督(对比学习)设置中,将 MTR 与 w/o DA、Manifold Mixup、Cutmix、SCARF、HiddenMix 进行对比。
- 在监督实验中,应用 50% 的增强概率;在自监督实验中,进行带有两个视图和 NT-Xent 损失的对比预训练。
实验结果
研究问题
- RQ1MTR 相对于现有表格数据增强方法在多样数据集上的性能是否有所提升?
- RQ2在何种场景(数据集特征,如特征冗余或列依赖性)下 MTR 特别有利或不利?
- RQ3在表格数据的监督与自监督(对比学习)学习设置下,MTR 的表现如何?
- RQ4影响 MTR 效果的实际因素与消融研究(如放置位置相对于 Tokenizer 的偏置、掩码概率等)有哪些?
主要发现
- MTR 的性能与现有增强方法相当,在 13 个数据集的监督实验中平均排名最佳。
- MTR 在高特征数数据集(如 PH)上表现突出,并且对较高的掩码概率具有鲁棒性,相较于某些基线。
- SCARF 与 HiddenMix 在某些数据集上可能优于 MTR,尤其是在多分类标签或标签混合提供更大多样性的情形。
- 在自监督学习中,MTR 往往获得最佳平均排名,尽管 SCARF 与 HiddenMix 在若干数据集上也表现强劲。
- 消融研究表明在 Tokenizer 的偏置之后应用 MTR 与在偏置之前同样有效,但实现成本更低。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。