[論文レビュー] SubTab: Subsetting Features of Tabular Data for Self-Supervised Representation Learning
SubTab は特徴をサブセットに分割し、サブセットから再構成し、サブセット表現を集約することで表形式データ表現を学習する。MNIST の表形式データで最先端の結果を達成し、いくつかの実世界データセットで強力な性能を示す。
Self-supervised learning has been shown to be very effective in learning useful representations, and yet much of the success is achieved in data types such as images, audio, and text. The success is mainly enabled by taking advantage of spatial, temporal, or semantic structure in the data through augmentation. However, such structure may not exist in tabular datasets commonly used in fields such as healthcare, making it difficult to design an effective augmentation method, and hindering a similar progress in tabular data setting. In this paper, we introduce a new framework, Subsetting features of Tabular data (SubTab), that turns the task of learning from tabular data into a multi-view representation learning problem by dividing the input features to multiple subsets. We argue that reconstructing the data from the subset of its features rather than its corrupted version in an autoencoder setting can better capture its underlying latent representation. In this framework, the joint representation can be expressed as the aggregate of latent variables of the subsets at test time, which we refer to as collaborative inference. Our experiments show that the SubTab achieves the state of the art (SOTA) performance of 98.31% on MNIST in tabular setting, on par with CNN-based SOTA models, and surpasses existing baselines on three other real-world datasets by a significant margin.
研究の動機と目的
- 表形式データにおける自己教師あり学習のための構造とデータ拡張の欠如を動機づけ、対処する。
- 複数の特徴ビューのサブセットを作成し、サブセット特徴量から再構成することで表現を学習する SubTab を提案する。
- 共同表現のためにサブセット埋め込みを集約して協調推論を示す。
- サブセットベースの集約を活用して欠損特徴量を持つ状態での訓練と推論を実現する。
- 自己教師ありと教師ありのベースラインを横断する MNIST(表形式)、TCGA、Obesity、Income、Blog データセットで実証的な利得を示す。
提案手法
- 表形式データの特徴を複数の固定サブセット(特徴バギング風)に分割する。
- 共有エンコーダを用いて各サブセットの潜在表現を取得し、共有デコーダでサブセット空間または全特徴空間を再構成する。
- サブセット表現の projection 間で対比損失を適用するオプション(およびサブセット projection 間の距離損失のオプション)を併用する。
- テスト時にサブセット表現を集約(デフォルトは平均集約)して結合表現を形成する;欠損サブセットを許容する。
- 再構成損失で訓練し(任意で対比損失と距離損失)、堅牢な表現を学習する。
- サブセットエントリのノイズ拡張(ガウス、スワップ、ゼロアウト)および特徴選択戦略(隣接列、ランダム列、ランダム特徴)を探索する。
実験結果
リサーチクエスチョン
- RQ1複数の特徴サブセットからの学習は、表形式データの単一ビュー自動エンコーダより表現品質を向上させるか。
- RQ2サブセットから全データを再構成すること(データを破損させるより)で潜在構造をよりよく捉えられるか。
- RQ3テスト時にサブセット表現を集約することは、特に欠損特徴量がある場合の性能にどう影響するか。
- RQ4任意の対比損失と距離損失が下流の分類/クラスタリング性能に与える影響は。
- RQ5さまざまな表形式データセットで良好な性能を得るためのハイパーパラメータ(サブセット数、オーバーラップ、潜在次元)はどれか。
主な発見
- SubTab は表形式データの多様なデータセット(MNIST の表形式版や実世界データの TCGA、Obesity、Income、Blog)で高い性能を達成する。
- サブセットから全ての特徴空間を再構成する方が、欠損をある全入力を再構成するよりもエンコーダをより良い潜在表現へ導く。
- テスト時のサブセット表現の集約(デフォルトは平均)により、競争力のある結合表現を得られ、欠損特徴量を補間なしでサポートする。
- スワップノイズを追加し、場合によっては距離損失と対比損失を加えることで、MNIST や他データセットで精度がさらに向上する。
- 浅い SubTab は表形式の MNIST において最先端似の性能を達成でき、深いバリアントは特定データセットで有効。SubTab は複数の自己教師ありベースラインを一貫して上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。