Skip to main content
QUICK REVIEW

[論文レビュー] Entity Embeddings of Categorical Variables

Cheng Guo, Felix Berkhahn|arXiv (Cornell University)|Apr 22, 2016
Bayesian Modeling and Causal Inference参考文献 36被引用数 304
ひとこと要約

この論文はカテゴリ特徴量のエンティティ埋め込みを導入し、ニューラルネットワーク内で低次元の埋め込みを学習して構造化データの関数近似を改善し、ワンホットエンコーディングより性能を向上させ、カテゴリの可視化とクラスタリングを支援する。

ABSTRACT

We map categorical variables in a function approximation problem into Euclidean spaces, which are the entity embeddings of the categorical variables. The mapping is learned by a neural network during the standard supervised training process. Entity embedding not only reduces memory usage and speeds up neural networks compared with one-hot encoding, but more importantly by mapping similar values close to each other in the embedding space it reveals the intrinsic properties of the categorical variables. We applied it successfully in a recent Kaggle competition and were able to reach the third position with relative simple features. We further demonstrate in this paper that entity embedding helps the neural network to generalize better when the data is sparse and statistics is unknown. Thus it is especially useful for datasets with lots of high cardinality features, where other methods tend to overfit. We also demonstrate that the embeddings obtained from the trained neural network boost the performance of all tested machine learning methods considerably when used as the input features instead. As entity embedding defines a distance measure for categorical variables it can be used for visualizing categorical data and for data clustering.

研究の動機と目的

  • ニューラルネットワークが単純なエンコーディングを用いた場合に、どのように高基数のカテゴリ特徴量に苦しむのかを動機付け、実証する。
  • カテゴリ変数の学習された密な表現としてエンティティ埋め込みを提案・形式化する。
  • 埋め込みが希薄データでの一般化を改善し、入力特徴として使用した場合に学習器全体の性能を向上させることを示す。
  • カテゴリデータを理解するための埋め込みの可視化・クラスタリング機能を示す。

提案手法

  • 各カテゴリ値をニューラルネットワークと同時に教師あり訓練で学習される密なベクトル(埋め込み)にマッピングする。
  • 埋め込み層をワンホット入力上の線形変換として扱い、埋め込みは層の重みに対応する。
  • すべての埋め込みを連続入力と結合し、逆伝播によってエンドツーエンドで訓練する。
  • 実データセット(Rossmann 店舗売上)でワンホットエンコーディングを用いたニューラルネットとエンティティ埋め込みを用いたニューラルネットを比較する。
  • Adam最適化で10エポックを用い、結果を安定化させるためアンサンブル予測を行う。
  • 埋め込みを特徴として使用した場合、ニューラルネットだけでなく他のモデルの性能も向上させることを示す。

実験結果

リサーチクエスチョン

  • RQ1エンティティ埋め込みは、カテゴリ値間の類似性を反映する意味のある、コンパクトな表現をカテゴリ変数に学習させることができるか?
  • RQ2ワンホットエンコーディングと比較して、高基数のカテゴリ特徴で予測性能と一般化を改善するか?
  • RQ3埋め込みはカテゴリデータの可視化とクラスタリングを促進できるか?
  • RQ4ニューラルネットワークで学習された埋め込みは、入力特徴として使用した場合、他の機械学習手法の性能向上に移転できるか?

主な発見

方法MAPEMAPE (EE)
xgboost0.3150.099
random forest0.1670.089
gradient boosted trees0.1220.071
neural network0.0700.070
KNN0.3150.099
random forest (EE input)0.1670.089
gradient boosted trees (EE input)0.1220.071
neural network (EE input)0.0700.070
  • エンティティ埋め込みは、ワンホットエンコーディングと比較してメモリ効率と速度を向上させる。
  • 機能的に似ている埋め込みカテゴリは、埋め込み空間でより近い位置に配置される傾向がある。
  • 埋め込みは希薄データや高基数特徴で一般化を改善する。
  • 埋め込みは入力として使用した場合、KNN、ランダムフォレスト、勾配ブースティング木の性能を大幅に向上させる。
  • 埋め込みの可視化(例: t-SNE)は、州の地理的クラスタリングや店舗埋め込みによるsalesの連続的変化など、意味のある構造を明らかにする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。