Skip to main content
QUICK REVIEW

[論文レビュー] Neural Factorization Machines for Sparse Predictive Analytics

Xiangnan He, Tat‐Seng Chua|arXiv (Cornell University)|Aug 16, 2017
Recommender Systems and Techniques参考文献 31被引用数 188
ひとこと要約

NFMは、因子分解機の線形な二次相互作用とニューラルネットワークを組み合わせ、疎なデータに対する高階の非線形特徴相互作用をモデル化します。FMを上回り、競合する深層モデルよりも浅い訓練可能なアーキテクチャで優れた性能を発揮します。

ABSTRACT

Many predictive tasks of web applications need to model categorical variables, such as user IDs and demographics like genders and occupations. To apply standard machine learning techniques, these categorical predictors are always converted to a set of binary features via one-hot encoding, making the resultant feature vector highly sparse. To learn from such sparse data effectively, it is crucial to account for the interactions between features. Factorization Machines (FMs) are a popular solution for efficiently using the second-order feature interactions. However, FM models feature interactions in a linear way, which can be insufficient for capturing the non-linear and complex inherent structure of real-world data. While deep neural networks have recently been applied to learn non-linear feature interactions in industry, such as the Wide&Deep by Google and DeepCross by Microsoft, the deep structure meanwhile makes them difficult to train. In this paper, we propose a novel model Neural Factorization Machine (NFM) for prediction under sparse settings. NFM seamlessly combines the linearity of FM in modelling second-order feature interactions and the non-linearity of neural network in modelling higher-order feature interactions. Conceptually, NFM is more expressive than FM since FM can be seen as a special case of NFM without hidden layers. Empirical results on two regression tasks show that with one hidden layer only, NFM significantly outperforms FM with a 7.3% relative improvement. Compared to the recent deep learning methods Wide&Deep and DeepCross, our NFM uses a shallower structure but offers better performance, being much easier to train and tune in practice.

研究の動機と目的

  • 疎でカテゴリ型特徴間の相互作用をより良くモデル化する重い特徴量エンジニアリングを伴わずに動機づける。
  • Bi-Interaction poolingをFMの二次相互作用と同等のニューラルネットワークとして導入する。
  • FMを非線形の隠れ層で深くしたNeural Factorization Machines(NFM)を開発する。
  • 実世界データセットでNFMがFM、Wide&Deep、DeepCrossに対して有効であることを示す。

提案手法

  • 埋め込み層を用いて特徴ごとに密なベクトルに埋め込む。
  • 埋め込み空間で二次の特徴相互作用を捉えるためにBi-Interaction poolingを適用する。
  • Bi-Interactionの出力の上に全結合層を積み重ねて高次の相互作用を学習する。
  • 最終隠れ表現を予測スコアへ写像する予測層を使用する。
  • 隠れ層がない場合(NFM-0)にNFMがFMを一般化することを示す。
  • Bi-Interaction層と隠れ層にドロップアウトを適用して正則化し、Bi-Interactionの後とその後の層にはバッチ正規化を適用する。

実験結果

リサーチクエスチョン

  • RQ1Bi-Interaction poolingは二次の特徴相互作用を効果的に捉えられるか?
  • RQ2NFMの隠れ層は高次の相互作用の表現力を高めるか?
  • RQ3NFMは高次FMや最先端の深層モデル(Wide&Deep、DeepCross)とどう比較されるか?
  • RQ4NFM訓練を支援する最適化と正則化戦略(ドロップアウト、バッチ正規化)は何か?
  • RQ5FMはNFMフレームワークの特別な場合として包含されるか?

主な発見

  • NFMは1つの隠れ層を持つ場合、FMを大幅に上回り、テストタスクで相対改善7.3%を達成。
  • NFMは浅くて訓練しやすい構造で、Wide&DeepやDeepCrossと競合するかそれ以上の性能を発揮する。
  • Bi-Interaction poolingは二次相互作用を線形時間でモデル化する機構を提供し、後続の層で高次相互作用の学習を促進する。
  • Bi-Interaction層および隠れ層へのドロップアウトはNFMを正則化し、標準的なL2正則化より優れる場合がある。
  • NFM-0は隠れ層がない場合にFMを正確に再現し、FMがNFMの特別なケースであることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。