[論文レビュー] Rethinking Data Augmentation for Tabular Data in Deep Learning
要約: 本論文は、Transformer ベースの表形式データモデル向けの新規データ拡張法である Mask Token Replacement (MTR) を提案し、監視付きおよび自己監督型の設定で13データセットにおいて既存の拡張法と比較して競争力があることを示し、どの状況で最も有効かを分析します。
Tabular data is the most widely used data format in machine learning (ML). While tree-based methods outperform DL-based methods in supervised learning, recent literature reports that self-supervised learning with Transformer-based models outperforms tree-based methods. In the existing literature on self-supervised learning for tabular data, contrastive learning is the predominant method. In contrastive learning, data augmentation is important to generate different views. However, data augmentation for tabular data has been difficult due to the unique structure and high complexity of tabular data. In addition, three main components are proposed together in existing methods: model structure, self-supervised learning methods, and data augmentation. Therefore, previous works have compared the performance without comprehensively considering these components, and it is not clear how each component affects the actual performance. In this study, we focus on data augmentation to address these issues. We propose a novel data augmentation method, $ extbf{M}$ask $ extbf{T}$oken $ extbf{R}$eplacement ($ exttt{MTR}$), which replaces the mask token with a portion of each tokenized column; $ exttt{MTR}$ takes advantage of the properties of Transformer, which is becoming the predominant DL-based architecture for tabular data, to perform data augmentation for each column embedding. Through experiments with 13 diverse public datasets in both supervised and self-supervised learning scenarios, we show that $ exttt{MTR}$ achieves competitive performance against existing data augmentation methods and improves model performance. In addition, we discuss specific scenarios in which $ exttt{MTR}$ is most effective and identify the scope of its application. The code is available at https://github.com/somaonishi/MTR/.
研究の動機と目的
- Transformer ベースのモデルを用いた表形式データのさまざまなデータ拡張法の有効性を評価する。
- 列方向のトークン埋め込みに特化した新しい拡張法 Mask Token Replacement (MTR) を導入する。
- 監視付きおよび自己監督型設定のさまざまなデータセットでMTRを既存の拡張法と比較する。
- MTRが最も効果を発揮する状況とデータセットの特徴、および制限を特定する。
提案手法
- トークン化子と Transformer の [cls] トークンを介して表形式入力を列埋め込みのシーケンスとして表現する。
- Bernoulli マスク p_m に従って埋め込みシーケンスの一部を学習可能な [mask] トークンで置換することにより MTR を導入する。
- 標準的なデータ前処理(数値データの量子化変換、カテゴリカルデータの序数エンコード)を用いて FTTransformer を基本モデルとして訓練・評価する。
- 監視付きと自己監督型(対照学習)設定の両方で w/o DA、Manifold Mixup、Cutmix、SCARF、HiddenMix と比較する。
- 監視付き実験では 50% の拡張確率を適用;自己監督型実験では 2 つのビューと NT-Xent 損失を用いた対照的事前学習を実施する。
実験結果
リサーチクエスチョン
- RQ1MTR は多様なデータセットを横断して既存の表形式データ拡張法と比較して性能を改善するか。
- RQ2どのような状況(特徴の冗長性や列の依存性などのデータセット特性)で MTR が特に有利または不利になるか。
- RQ3表形式データの監視付き学習と自己監督型学習(対照学習)設定で MTR はどのように性能を発揮するか。
- RQ4トークン化子のバイアスに対する配置、マスキング確率など、MTR の有効性に影響を与える実用的な検討事項とアブレーション。
主な発見
- MTR は既存拡張法と競争力があり、13データセットの監視付き実験で平均的に最良の順位を示す。
- 高特徴数データセット(例:PH)で強い性能を示し、他のベースラインと比較してより高いマスキング確率に対しても堅牢である。
- SCARF と HiddenMix は特定のデータセットで MTR を上回ることがあり、特に多クラスラベルのある場合やラベルの混合が多様性を高める場合に有利。
- 自己監督学習では、MTR が平均順位で最良を示すことが多いが、SCARF と HiddenMix もいくつかのデータセットで強力な性能を示す。
- アブレーションでは、Tokenizer のバイアスの後に MTR を適用する方が前と同様に効果的で、実装コストが低いことが示唆される。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。