Skip to main content
QUICK REVIEW

[論文レビュー] DeepFM: A Factorization-Machine based Neural Network for CTR Prediction

Huifeng Guo, Ruiming Tang|arXiv (Cornell University)|Mar 13, 2017
Recommender Systems and Techniques参考文献 18被引用数 540
ひとこと要約

DeepFM は、特徴量エンジニアリングや事前学習を用いず、共有入力アーキテクチャでファクター化機械(FM)成分と深層ニューラルネットワークを統合し、低次と高次の特徴の相互作用を CTR 予測でモデル化する。

ABSTRACT

Learning sophisticated feature interactions behind user behaviors is critical in maximizing CTR for recommender systems. Despite great progress, existing methods seem to have a strong bias towards low- or high-order interactions, or require expertise feature engineering. In this paper, we show that it is possible to derive an end-to-end learning model that emphasizes both low- and high-order feature interactions. The proposed model, DeepFM, combines the power of factorization machines for recommendation and deep learning for feature learning in a new neural network architecture. Compared to the latest Wide \& Deep model from Google, DeepFM has a shared input to its "wide" and "deep" parts, with no need of feature engineering besides raw features. Comprehensive experiments are conducted to demonstrate the effectiveness and efficiency of DeepFM over the existing models for CTR prediction, on both benchmark data and commercial data.

研究の動機と目的

  • CTR 予測における低次と高次の特徴相互作用の両方を捉える必要性を動機付ける。
  • FM と深層ネットワークを共有入力埋め込みで結合する統一的ニューロンアーキテクチャを提案する。
  • 組み合わせモデルのエンドツーエンド学習を可能にして、特徴量エンジニアリングと事前学習を排除する。
  • DeepFM を最先端のベースラインとベンチマークおよび産業データで評価する。
  • 学習効率をトップクラスの深層モデルに近づけつつ、予測性能を向上させることを示す。

提案手法

  • 2 成分の DeepFM モデルを導入する。FM 成分は階層2の相互作用、DNN 成分は高次相互作用を担う。
  • FM と DNN の間で同じ入力特徴埋め込みを共有し、事前学習なしで共同のエンドツーエンド学習を可能にする。
  • FM 出力: y_FM = <w,x> + sum_{i<j} <V_i,V_j> x_i x_j.
  • Deep 成分: 各フィールドを k 次元ベクトルに埋め込む;a^(0) = [e_1,...,e_m]; a^(l+1) = sigma(W^(l) a^(l) + b^(l)); y_DNN = sigma(W^{H+1} a^(H) + b^{H+1}).
  • 最終予測: y_hat = sigmoid(y_FM + y_DNN).
  • 訓練は FM 部分と DNN 部分を共同最適化し、埋め込みを共有してエンドツーエンドの CTR 予測を実現する。
  • Wide & Deep と比較して、特徴量エンジニアリングと事前学習を回避し、コンポーネント間で埋め込みを共有する。

実験結果

リサーチクエスチョン

  • RQ1特徴量エンジニアリングなしで、単一のエンドツーエンドモデルは CTR 予測の低次および高次の相互作用を捉えられるか?
  • RQ2FM と DNN の間で埋め込みを共有することは、別個の埋め込みや事前学習済み部品と比較して CTR 予測性能を向上させるか?
  • RQ3提案手法 DeepFM は、ベースラインの FM、FNN、IPNN、OPNN、PNN*、Wide & Deep に比べて、ベンチマークおよび産業データでより効率的かつ効果的か?
  • RQ4大規模な実世界データセットでの DeepFM の AUC および LogLoss の性能はどうか?
  • RQ5実運用へて DeepFM をデプロイする際の実務的考慮事項(学習時間、アーキテクチャ選択)は何か?

主な発見

モデルAUC (Company*)LogLoss (Company*)AUC (Criteo)LogLoss (Criteo)
LR0.86400.026480.76860.47762
FM0.86780.026330.78920.46077
FNN0.86830.026290.79630.45738
IPNN0.86640.026370.79720.45323
OPNN0.86580.026410.79820.45256
PNN*0.86720.026360.79870.45214
LR & DNN0.86730.026340.79810.46772
FM & DNN0.86610.026400.78500.45382
DeepFM0.87150.026180.80070.45083
  • DeepFM はベースラインを AUC と LogLoss の両方で上回る。
  • Company* で DeepFM は 0.8715 AUC および 0.02618 LogLoss を達成し、LR、FM、FNN、IPNN、OPNN、PNN*、LR&DNN、FM&DNN のバリアントを上回る。
  • Criteo では DeepFM は 0.8007 AUC および 0.45083 LogLoss を達成し、競合モデルよりも優れている。
  • DeepFM は最良の深層モデルに近い効率を提供し、事前学習は不要。
  • FM と DNN の間で埋め込みを共有することで、別個の埋め込みや事前学習を用いるモデルより性能が向上する。
  • 全体として、低次と高次の相互作用を共有埋め込みで同時に学習することで、評価したモデルの中で最も優れた CTR 予測性能を実現する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。