QUICK REVIEW

[논문 리뷰] Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks

Jun Xiao, Hao Ye|arXiv (Cornell University)|2017. 08. 15.

Recommender Systems and Techniques참고 문헌 15인용 수 119

한 줄 요약

AFM은 어텐션 네트워크를 통해 쌍형 특징 상호작용의 중요도를 학습함으로써 요인을 확장한 Factorization Machines를 개선하고, 간결한 모델을 유지하면서 예측력과 해석가능성을 향상시킵니다. 희소 데이터 작업에서 FM 및 여러 딥 베이스라인보다 성능이 우수합니다.

ABSTRACT

Factorization Machines (FMs) are a supervised learning approach that enhances the linear regression model by incorporating the second-order feature interactions. Despite effectiveness, FM can be hindered by its modelling of all feature interactions with the same weight, as not all feature interactions are equally useful and predictive. For example, the interactions with useless features may even introduce noises and adversely degrade the performance. In this work, we improve FM by discriminating the importance of different feature interactions. We propose a novel model named Attentional Factorization Machine (AFM), which learns the importance of each feature interaction from data via a neural attention network. Extensive experiments on two real-world datasets demonstrate the effectiveness of AFM. Empirically, it is shown on regression task AFM betters FM with a $8.6\%$ relative improvement, and consistently outperforms the state-of-the-art deep learning methods Wide&Deep and DeepCross with a much simpler structure and fewer model parameters. Our implementation of AFM is publicly available at: https://github.com/hexiangnan/attentional_factorization_machine

연구 동기 및 목표

다양한 특징 상호작용의 유용성을 구분하여 Factorization Machines를 개선하는 동기를 제시한다.
가벼운 모델을 제안하여 어텐션 메커니즘으로 상호작용을 가중한다.
희소 데이터에서 예측 성능이 어텐션 기반 가중치를 통해 향상됨을 보여준다.
AFM이 상호작용 중요도에 대한 명시적 가중치를 통해 해석가능성이 더 크다는 점을 제시한다.
실제 데이터셋에서 AFM과 FM 및 딥 베이스라인을 비교하는 경험적 증거를 제공한다.

제안 방법

입력 특성을 희소한 원-핫 인코딩으로 표현하고 0이 아닌 특징들을 밀집 벡터로 임베딩한다.
모든 쌍형 상호작용 벡터를 원소별 곱으로 생성하는 Pair-wise Interaction Layer를 도입한다.
어텐션 네트워크를 이용해 각 상호작용에 대해 정규화된 가중치 a_{ij}를 학습하는 어텐션 기반 풀링 계층을 적용한다.
어텐션 네트워크를 작은 MLP로 정의하여 a^{\u0003a}_{ij} = h^T ReLU(W (v_i \u0018v_j) x_i x_j + b)이고, 그 다음 a_{ij} = softmax(a^{\u0003a}_{ij})를 계산한다.
가중 상호작용을 p^T sum_{i<j} a_{ij} (v_i \u0018v_j) x_i x_j를 통해 결합하고 최종 예측을 위해 선형 항들을 더한다.
회귀를 위한 제곱손실로 학습하고, W에 대한 정규화와 상호작용 계층의 드롭아웃으로 과적합을 방지한다.

실험 결과

연구 질문

RQ1어텐션 메커니즘이 AFM에서 특징 상호작용의 중요도를 효과적으로 학습할 수 있는가?
RQ2상호작용 드롭아웃, 어텐션 네트워크의 정규화 같은 주요 하이퍼파라미터가 AFM 성능에 어떤 영향을 미치는가?
RQ3AFM이 희소 데이터 예측 작업에서 전통적인 FM 및 최첨단 딥 모델보다 성능이 우수한가?
RQ4학습된 어텐션 점수로 명시된 상호작용 주의가 해석가능성을 높이는가?
RQ5임베딩 크기와 어텐션 인자(attention factor)가 모델 성능과 수렴 속도에 미치는 영향은 무엇인가?

주요 결과

AFM은 회귀 작업에서 FM 대비 상대적 8.6% 개선을 더 적은 매개변수로 달성한다.
AFM은 실험 데이터셋에서 Wide&Deep 및 DeepCross보다 더 간단한 구조로 일관되게 우수한 성능을 보인다.
상호작용 계층에의 드롭아웃은 AFM과 FM 모두의 성능을 개선하며 데이터셋에 따라 최적 비율이 다르다.
어텐션 네트워크에 대한 정규화는 드롭아웃만으로도 AFM의 일반화 성능을 더 향상시킨다.
AFM은 FM보다 더 빠르게 수렴하며 학습된 어텐션 점수를 통해 해석가능한 상호작용 중요도를 제공한다.
AFM은 Frappe와 MovieLens에서 평가된 베이스라인들 중에서 최적의 테스트 RMSE를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.