[论文解读] SubTab: Subsetting Features of Tabular Data for Self-Supervised Representation Learning
SubTab 通过将特征分成子集、从子集重建并聚合子集表示来学习表格数据表示;它在表格形式的 MNIST 上取得了最先进的结果,并在若干现实数据集上表现出色。
Self-supervised learning has been shown to be very effective in learning useful representations, and yet much of the success is achieved in data types such as images, audio, and text. The success is mainly enabled by taking advantage of spatial, temporal, or semantic structure in the data through augmentation. However, such structure may not exist in tabular datasets commonly used in fields such as healthcare, making it difficult to design an effective augmentation method, and hindering a similar progress in tabular data setting. In this paper, we introduce a new framework, Subsetting features of Tabular data (SubTab), that turns the task of learning from tabular data into a multi-view representation learning problem by dividing the input features to multiple subsets. We argue that reconstructing the data from the subset of its features rather than its corrupted version in an autoencoder setting can better capture its underlying latent representation. In this framework, the joint representation can be expressed as the aggregate of latent variables of the subsets at test time, which we refer to as collaborative inference. Our experiments show that the SubTab achieves the state of the art (SOTA) performance of 98.31% on MNIST in tabular setting, on par with CNN-based SOTA models, and surpasses existing baselines on three other real-world datasets by a significant margin.
研究动机与目标
- 激发并解决表格数据在自监督学习中缺乏结构和数据增强方法的问题。
- 提出 SubTab,通过创建多个特征视图子集并通过从子集特征重建来学习表示。
- 通过聚合子集嵌入以获得联合表示来演示协同推理。
- 通过利用基于子集的聚合,使缺失特征情况下的训练和推理成为可能。
- 在 MNIST(表格形式)、TCGA、Obesity、Income 和 Blog 数据集上展示自监督与监督基线的经验增益。
提出的方法
- 将表格数据的特征分成多个固定子集(特征袋装风格)。
- 使用一个共享编码器为每个子集获得潜在表示,使用一个共享解码器重建子集或整个特征空间。
- 可选地在子集表示的投影之间应用对比损失,以及在子集投影之间应用可选的距离损失。
- 在测试时对子集表示进行聚合(默认均值聚合)以形成联合表示;测试时可以容忍缺失的子集。
- 使用重建损失进行训练(可选地包含对比损失和距离损失),以学习鲁棒表示。
- 探索对子集条目进行基于噪声的增强(高斯、交换、置零)以及特征选择策略(相邻列、随机列、随机特征)。
实验结果
研究问题
- RQ1从多个特征子集学习是否能比单视角自编码器在表格数据上获得更高质量的表示?
- RQ2从子集重建完整数据(而不是破坏数据)是否更能捕捉表格设置中的潜在结构?
- RQ3在测试时聚合子集表示如何影响性能,特别是在缺失特征时?
- RQ4可选对比损失和距离损失对下游分类/聚类性能的影响是什么?
- RQ5哪些超参数(子集数量、重叠、潜在维度)在多样的表格数据集上能获得最佳性能?
主要发现
- SubTab 在多样化的表格数据集上实现出色表现,包括表格形式的 MNIST 和真实世界数据(TCGA、Obesity、Income、Blog)。
- 从子集重建完整特征空间比重建被污染的完整输入更有效,引导编码器获得更好的潜在表示。
- 测试时对子集表示进行聚合(默认均值)可获得具有竞争力的联合表示,并在不进行插补的情况下支持缺失特征。
- 添加交换噪声,并在某些情况下加入距离损失和对比损失,进一步提升 MNIST 等数据集的准确性。
- 浅层 SubTab 可以在表格形式的 MNIST 上达到类似于最先进的表现,较深的变体在某些数据集上有所帮助;SubTab 在各自自监督基线上始终优于多项方法。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。