Skip to main content
QUICK REVIEW

[論文レビュー] On Embeddings for Numerical Features in Tabular Deep Learning

Yury Gorishniy, Ivan Rubachev|arXiv (Cornell University)|Mar 10, 2022
Model Reduction and Neural Networks被引用数 58
ひとこと要約

本論文は、表形式データの深層学習における数値特徴の埋め込み方式(区分線形エンコードと周期的活性化)を提案し、バックボーン全体で性能を大幅に向上させ、いくつかのベンチマークでGBDTとのギャップを縮めている。

ABSTRACT

Recently, Transformer-like deep architectures have shown strong performance on tabular data problems. Unlike traditional models, e.g., MLP, these architectures map scalar values of numerical features to high-dimensional embeddings before mixing them in the main backbone. In this work, we argue that embeddings for numerical features are an underexplored degree of freedom in tabular DL, which allows constructing more powerful DL models and competing with GBDT on some traditionally GBDT-friendly benchmarks. We start by describing two conceptually different approaches to building embedding modules: the first one is based on a piecewise linear encoding of scalar values, and the second one utilizes periodic activations. Then, we empirically demonstrate that these two approaches can lead to significant performance boosts compared to the embeddings based on conventional blocks such as linear layers and ReLU activations. Importantly, we also show that embedding numerical features is beneficial for many backbones, not only for Transformers. Specifically, after proper embeddings, simple MLP-like models can perform on par with the attention-based architectures. Overall, we highlight embeddings for numerical features as an important design aspect with good potential for further improvements in tabular DL.

研究の動機と目的

  • 表形式データの深層学習における設計選択として、数値特徴の埋め込みを強調する。
  • 2つの埋め込みスキーム(区分線形エンコードと周期的活性化)を開発・比較する。
  • 埋め込みがMLP、ResNet、Transformerといったバックボーン全体、およびGBDTに適したベンチマークで性能向上をもたらすことを示す。
  • 適切な埋め込みと組み合わせた場合、シンプルなMLPが注意機構ベースのモデルと張り合えることを示す。

提案手法

  • 数値特徴の埋め込みを独立した特徴埋め込みとして formalize z_i = f_i(x_i^(num)).
  • 2つの埋め込みブロックを提案する: (a) 特徴 binning に基づく区分線形エンコード(PLE)、(b) 学習可能な前活性化係数を備えた周期的活性化。
  • ビン構成法の説明: 分位基準ベースとターゲット認識型(C4.5に触発)。
  • 埋め込みの上に任意の微分可能な層を追加可能(例: 線形層、ReLU)。
  • MLP風とTransformerバックボーンの両方に埋め込みを適用可能とする。バックボーンに応じて埋め込みを連結するかそのまま通す。
  • 複数のバックボーン(MLP、ResNet、Transformer)と幅広い埋め込みセットを用いて、11データセットにわたる精度/RMSEを評価する。

実験結果

リサーチクエスチョン

  • RQ1数値特徴の表現力豊かな埋め込みは、従来の線形ブロックを超えて表形式のDLの性能を向上させるか?
  • RQ2数値特徴の埋め込みの利点は、Transformer系モデルに限らず、バックボーン全体に普遍的か?
  • RQ3どの埋め込みスキーム(PLE quantile、PLE target-aware、periodic、またはそれらの組み合わせ)がデータセット全体で最良の性能を発揮するか?
  • RQ4適切な埋込みを備えたシンプルなMLPは、最先端の注意機構ベースモデルやGBDTのベースラインと競えるか?

主な発見

バックボーン埋め込みGE ↑CH ↑CA ↓HO ↓AD ↑OT ↑HI ↑FB ↓SA ↑CO ↑MI ↓Avg. Rank
CatBoostN/A0.6920.8610.4303.0930.8730.8250.7275.2260.9240.9670.7413.6 ± 2.9
XGBoostN/A0.6830.8590.4343.1520.8750.8270.7265.3380.9190.9690.7424.6 ± 2.7
MLP-0.6650.8560.4863.1090.8560.8220.7275.6160.9130.9680.7468.5 ± 2.6
MLP-LR-0.6790.8610.4633.0120.8590.8260.7315.4770.9240.9720.7445.5 ± 2.7
MLP-Q-LR-0.6820.8590.4333.0800.8670.8180.7245.4710.9240.9740.7455.1 ± 1.9
MLP-T-LR-0.6900.8570.4253.1430.8680.8180.7265.4710.9240.9750.7444.4 ± 2.2
MLP-PLR-0.7000.8580.4532.9750.8740.8300.7345.3880.9240.9750.7433.0 ± 2.4
ResNet-0.6900.8610.4833.0810.8560.8210.7345.4820.9180.9680.7456.7 ± 3.3
ResNet-LR-0.6720.8620.4502.9920.8590.8220.7335.4150.9230.9710.7435.6 ± 2.7
ResNet-Q-LR-0.6740.8590.4273.0660.8680.8150.7295.3090.9230.9760.7464.7 ± 2.0
ResNet-T-LR-0.6830.8620.4253.0300.8720.8220.7315.4710.9230.9750.7444.1 ± 1.9
Transformer-LFT-Transformer0.6680.8610.4553.1880.8600.8240.7275.4340.9240.9730.7435.9 ± 2.2
Transformer-LR-0.6660.8610.4463.1930.8610.8240.7335.4300.9240.9730.7435.2 ± 2.2
Transformer-Q-LR-0.6900.8570.4253.1430.8680.8180.7265.4710.9240.9750.7444.4 ± 2.2
Transformer-T-LR-0.6860.8620.4233.1490.8710.8230.7335.5150.9240.9760.7443.7 ± 2.2
Transformer-PLR-0.6860.8640.4493.0910.8730.8230.7345.5810.9240.9750.7433.9 ± 2.5
MLP-P-0.6310.8600.4893.1290.8690.8070.7235.8450.9230.9680.747-
  • 数値特徴の埋め込みは、MLP、ResNet、Transformerバックボーンで顕著な改善をもたらす。
  • 区分線形エンコード(PLE)はしばしば結果を改善し、分位ベースとターゲット認識型のビニングが高い性能を発揮する。
  • 周期的活性化は有効で、追加の微分可能層を用いると、単純な周期埋め込みを上回ることが多い。
  • 適切な埋め込みを備えたMLPは、いくつかのデータセットでTransformerベースのモデルと同等かそれ以上になり、DL-GBDTギャップの一部を縮める。
  • いくつかの公開ベンチマークでは、埋め込みを用いたDLモデルが表形式DL手法の中で最先端を達成し、GBDTの性能に近づく。
  • 埋め込みによるオーバーヘッドでパラメータ数が増加するが、特定のバックボーンではトレーニングの高速化で相殺できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。