QUICK REVIEW

[論文レビュー] SAINT: Improved Neural Networks for Tabular Data via Row Attention and Contrastive Pre-Training

Gowthami Somepalli, Micah Goldblum|arXiv (Cornell University)|Jun 2, 2021

Imbalanced Data Classification Techniques参考文献 43被引用数 113

ひとこと要約

SAINT は特徴量に対して自己注意を用い、行間でサンプル間注意を適用し、コントラスト学習 pre-training で、従来のブースティング手法を表形式データで上回る。多くのベンチマークで XGBoost, CatBoost, LightGBM を超えることが多い。

ABSTRACT

Tabular data underpins numerous high-impact applications of machine learning from fraud detection to genomics and healthcare. Classical approaches to solving tabular problems, such as gradient boosting and random forests, are widely used by practitioners. However, recent deep learning methods have achieved a degree of performance competitive with popular techniques. We devise a hybrid deep learning approach to solving tabular data problems. Our method, SAINT, performs attention over both rows and columns, and it includes an enhanced embedding method. We also study a new contrastive self-supervised pre-training method for use when labels are scarce. SAINT consistently improves performance over previous deep learning methods, and it even outperforms gradient boosting methods, including XGBoost, CatBoost, and LightGBM, on average over a variety of benchmark tasks.

研究の動機と目的

異種の特徴タイプを扱い、固有の列順情報を欠く表形式データに対してニューラルアプローチを動機づける。
特徴ごとに自己注意を適用し、行を横断してサンプル間注意を行う、トランスフォーマーに基づくアーキテクチャ SAINT を提案する。
半教師あり設定での性能向上を目的としたコントラスト学習型自己教師付き事前学習方式を導入する。
広範なベンチマーク群において、SAINT が木ベース手法や従来の深層表データモデルより経験的に改善を示すことを実証する。

提案手法

連続特徴とカテゴリ特徴を共通の密な埋め込み空間に射影する。
自己注意と新規のサンプル間注意（バッチ行にまたがる）を組み合わせた transformer エンコーダで埋め込みを処理する。
連続特徴を特徴ごとに学習可能な射影を介してトランスフォーマ処理前に埋め込む。
ハイブリッド目的関数で事前学習: コントラスト損失（InfoNCE）と拡張ビューからのデノイジング損失（入力空間の CutMix と埋め込み空間の mixup）を組み合わせる。
[CLS] 埋め込みから MLP を用いてターゲットを予測することで微調整する。
アブレーション実験と注意機構の可視化を提供し、モデル挙動を解釈する。

実験結果

リサーチクエスチョン

RQ1SAINT の自己注意とサンプル間注意の組み合わせは、従来のブースティング手法を超えた表形式データのモデリング改善につながるだろうか？
RQ2コントラストプリトレーニングは表形式データの半教師付き設定で利得をもたらすのか？
RQ3連続特徴の埋め込みは、これまでの表形式トランスフォーマーと比べて性能にどう影響するか？
RQ4サンプル間注意が最も有益になるのはいつか（例えば多くの特徴、ラベルが少ない場合など）？

主な発見

モデル	Bank	Blastchar	Arrhythmia	Arcene	Forest	Shoppers	Income	Volkert	MNIST	Mean
Logistic Regression	90.73	82.34	86.22	91.59	84.79	87.03	92.12	53.87	89.89	89.25
Random Forest	89.12	80.63	86.96	79.17	98.80	89.87	88.04	66.25	93.75	89.52
XGBoost	92.96	81.78	81.98	81.41	95.53	92.51	92.31	68.95	94.13	91.06
LightGBM	93.39	83.17	88.73	81.05	93.29	93.20	92.57	67.91	95.20	90.13
CatBoost	90.47	84.77	87.91	82.48	85.36	93.12	90.80	66.37	96.60	90.73
MLP	91.47	59.63	58.82	90.26	96.81	84.71	92.08	63.02	93.87	84.59
VIME	76.64	50.08	65.30	61.03	75.06	74.37	88.98	64.28	95.77	76.07
TabNet	91.76	79.61	52.12	54.10	96.37	91.38	90.72	56.83	96.79	83.88
TabTransformer	91.34	81.67	70.03	86.80	84.96	92.70	90.60	57.98	88.74	90.86
SAINT-s	93.61	84.91	93.46	86.88	99.67	92.92	91.79	62.91	90.52	92.59
SAINT-i	92.83	84.46	95.80	92.75	99.45	92.29	91.55	71.27	98.06	93.09
SAINT	93.30	84.67	94.18	91.04	99.70	93.06	91.67	70.12	97.67	93.13

SAINT のバリアントは、14 の二値分類データセットにおいて AUROC でベースラインモデルを一般に上回り、SAINT はしばしば最大の結果を達成する。
平均して、SAINT は従来のブースティング手法（XGBoost, LightGBM, CatBoost）および他の深層表データモデルを上回る。
半教師付き設定では、SAINT の事前学習（自己注意とサンプル間注意の両方を用いる）が最良の結果をもたらし、特にラベル付きデータが限られている場合に顕著。
連続特徴の埋め込みは性能を大幅に向上させ、TabTransformer の比較で示されている。
サンプル間注意はノイズに対する頑健性を提供し、特徴数が多い場合やデータが乏しい場合に有効である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。