QUICK REVIEW

[論文レビュー] Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks

Jun Xiao, Hao Ye|arXiv (Cornell University)|Aug 15, 2017

Recommender Systems and Techniques参考文献 15被引用数 119

ひとこと要約

AFMは注意機構を用いて特徴間の組合せの重要性を学習することで、因子分解機の性能を向上させつつモデルをコンパクトに保ち、予測性能と解釈性を両立します。 sparseデータタスクにおいてFMおよびいくつかの深層ベースラインを上回ります。

ABSTRACT

Factorization Machines (FMs) are a supervised learning approach that enhances the linear regression model by incorporating the second-order feature interactions. Despite effectiveness, FM can be hindered by its modelling of all feature interactions with the same weight, as not all feature interactions are equally useful and predictive. For example, the interactions with useless features may even introduce noises and adversely degrade the performance. In this work, we improve FM by discriminating the importance of different feature interactions. We propose a novel model named Attentional Factorization Machine (AFM), which learns the importance of each feature interaction from data via a neural attention network. Extensive experiments on two real-world datasets demonstrate the effectiveness of AFM. Empirically, it is shown on regression task AFM betters FM with a $8.6\%$ relative improvement, and consistently outperforms the state-of-the-art deep learning methods Wide&Deep and DeepCross with a much simpler structure and fewer model parameters. Our implementation of AFM is publicly available at: https://github.com/hexiangnan/attentional_factorization_machine

研究の動機と目的

Factorization Machinesの有用性を異なる特徴相互作用の有用性を区別することによって改善する動機付け。
注意機構を用いて相互作用に重みを付ける軽量モデルの提案。
注意ベースの重み付けが疎データの予測性能を向上させることの実証。
AFMが相互作用の重要性を明示することにより解釈性を改善することの示唆。
実データセットに対するAFMとFMおよび深層ベースラインの比較に関する実証的証拠を提供。

提案手法

疎なワンホット表現によって入力特徴を表現し、非零特徴を密ベクトルに埋め込む。
全てのペアワイズ相互作用ベクトルを要素ごとの積として生成するPair-wise Interaction Layerを導入する。
各相互作用に対して正規化された重みa_{ij}を学習する注意ネットワークを用いた注意ベースのプーリング層を適用する。
注意ネットワークを小さなMLPとして定義し、a^{a}_{ij} = h^T ReLU(W (v_i v_j) x_i x_j + b) を計算し、次に a_{ij} = softmax(a^{a}_{ij}) とする。
重み付き相互作用を p^T sum_{i<j} a_{ij} (v_i v_j) x_i x_j と結合し、最終予測のために線形項を加える。
回帰タスクの二乗誤差で学習し、Wの正則化と相互作用層のドロップアウトを用いて過剰適合を防ぐSGDを用いる。

実験結果

リサーチクエスチョン

RQ1AFMにおいて注意機構は特徴相互作用の重要性を効果的に学習できるか。
RQ2相互作用のドロップアウト、注意ネットワークの正則化などの主要ハイパーパラメータはAFMの性能にどう影響するか。
RQ3AFMは疎データ予測タスクで従来のFMや最先端の深層モデルを上回るか。
RQ4AFMは明示的な相互作用の注意スコアによって解釈性が高いか。
RQ5埋め込みサイズと注意因子がモデル性能と収束に与える影響はどのようか。

主な発見

Method	Param#	RMSE (Frappe)	Param#	RMSE (MovieLens)
LibFM	1.38M	0.3385	23.24M	0.4735
HOFM	2.76M	0.3331	46.40M	0.4636
Wide&Deep	4.66M	0.3246	24.69M	0.4512
DeepCross	8.93M	0.3548	25.42M	0.5130
AFM	1.45M	0.3102	23.26M	0.4325

AFMはパラメータ数が少ない状態でFMに対して相対的に8.6%の改善を達成。
AFMは tested データセットでWide&DeepやDeepCrossを一貫して上回り、よりシンプルな構造で優れた性能を示す。
ペアワイズ相互作用層のドロップアウトはAFMとFMの両方の性能を向上させ、データセットごとに最適比率が異なる。
注意ネットワークの正則化はドロップアウトだけでなくAFMの一般化をさらに改善する。
AFMはFMよりも速く収束し、学習された注意スコアを通じて解釈可能な相互作用の重要性を提供する。
AFMはFrappeとMovieLensのベンチマークで最良の検証RMSEを達成している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。