Skip to main content
QUICK REVIEW

[論文レビュー] TabTransformer: Tabular Data Modeling Using Contextual Embeddings

Xin Huang, Ashish Khetan|arXiv (Cornell University)|Dec 11, 2020
Domain Adaptation and Few-Shot Learning参考文献 48被引用数 174
ひとこと要約

TabTransformer は Transformer レイヤの文脈埋め込みを用いて表形式データをモデル化し、ML ベースラインを上回る精度を達成し、GBDT に匹敵する性能を示し、欠損/ノイズデータへの頑健性と、2 段階の半教師あり事前学習アプローチを持つ。

ABSTRACT

We propose TabTransformer, a novel deep tabular data modeling architecture for supervised and semi-supervised learning. The TabTransformer is built upon self-attention based Transformers. The Transformer layers transform the embeddings of categorical features into robust contextual embeddings to achieve higher prediction accuracy. Through extensive experiments on fifteen publicly available datasets, we show that the TabTransformer outperforms the state-of-the-art deep learning methods for tabular data by at least 1.0% on mean AUC, and matches the performance of tree-based ensemble models. Furthermore, we demonstrate that the contextual embeddings learned from TabTransformer are highly robust against both missing and noisy data features, and provide better interpretability. Lastly, for the semi-supervised setting we develop an unsupervised pre-training procedure to learn data-driven contextual embeddings, resulting in an average 2.1% AUC lift over the state-of-the-art methods.

研究の動機と目的

  • MLP と勾配ブースト決定木(GBDT)間のタブラー データにおける性能ギャップを、カテゴリ特徴の文脈埋め込みを学習することで埋める。
  • Transformer ベースの自己注意を活用して、列の埋め込みを文脈表現へ変換し、予測精度を改善する。
  • 欠損・ノイズのあるカテゴリ特徴に対する頑健性を示し、学習埋め込みの解釈性を提供する。
  • ラベル付きデータが少ない場合の性能を向上させるため、ラベルなしデータでの事前学習とラベル付きデータでのファインチューニングを含む2段階の半教師あり学習パイプラインを提案する。

提案手法

  • 各カテゴリ特徴を欠損値埋め込みを含む専用の列埋め込みテーブルで埋める。
  • N 個の Transformer レイヤを通じて埋め込みの系列を処理する(マルチヘッド自己注意の後にフィードフォワードブロック)。
  • トップの Transformer レイヤからの文脈埋め込みを連続特徴と結合し、それらをMLPへ投入して最終予測を行う。
  • オプションとして、 MLM(Masked Language Modeling)または RTD(Replaced Token Detection)タスクを用いて unlabeled データ上で Transformer レイヤを事前学習し、次にラベル付きデータで微調整する。
  • 標準的な監視付き損失(分類はクロスエントロピー、回帰は MSE)を最小化するようにエンドツーエンドで勾配法学習を用いて最適化する。
  • 半教師あり設定では、2段階のワークフローを実行する: (i) ラベルなしデータで事前学習、(ii) ラベル付きデータでファインチューニング。

実験結果

リサーチクエスチョン

  • RQ1Transformer ベースのカテゴリ特徴の文脈埋め込みは、表形式データで従来のMLPを上回るか。
  • RQ2文脈埋め込みは、基盤となるニューラルモデルと比較して欠損・ノイズのあるカテゴリ特徴に頑健性を提供するか。
  • RQ3TabTransformer はさまざまなデータセットで、GBDT や他の深層表データモデルと比較してどの程度の性能を示すか。
  • RQ42段階の半教師あり事前学習/微調整パイプラインは、ラベル付きデータが限られている場合に AUC の測定可能な改善をもたらすか。

主な発見

Model NameMean AUC (%)Std Dev (%)
TabTransformer82.80.4
MLP81.80.4
GBDT82.90.4
Sparse MLP81.40.4
Logistic Regression80.40.4
TabNet77.10.5
VIB80.50.4
  • TabTransformer は 15 のデータセット中 14 でベースラインの MLP を上回り、平均で 1.0% の AUC 増分を達成。
  • TabTransformer は supervised 学習において GBDT に匹敵するか、GBDT を上回る深層タブラーのベースラインをいくつか上回っている(例:TabNet、VIB)。
  • 文脈埋め込みは Transformer レイヤを通じてより予測力を持つようになり、埋め込み上の線形モデルがエンドツーエンドの性能に近づく。
  • モデルはノイズの多い・欠損のあるカテゴリ特徴に対して頑健であり、ノイズや欠損が増加するにつれて MLP を上回る。
  • 半教師あり設定では、Pre-training を用いた TabTransformer-RTD/MLM は unlabeled データが豊富な場合、競合他社に対して有意な AUC 増加をもたらす(平均最大で 2.1% のリフト)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。