Skip to main content
QUICK REVIEW

[논문 리뷰] Neural Factorization Machines for Sparse Predictive Analytics

Xiangnan He, Tat‐Seng Chua|arXiv (Cornell University)|2017. 08. 16.
Recommender Systems and Techniques참고 문헌 31인용 수 188
한 줄 요약

NFM은 Factorization Machines의 선형 2차 상호작용과 신경망을 결합하여 희소 데이터에 대한 고차원 비선형 피처 상호작용을 모델링합니다; 얕은 학습 가능한 아키텍처로 FM 및 경쟁적인 심층 모델보다 성능이 우수합니다.

ABSTRACT

Many predictive tasks of web applications need to model categorical variables, such as user IDs and demographics like genders and occupations. To apply standard machine learning techniques, these categorical predictors are always converted to a set of binary features via one-hot encoding, making the resultant feature vector highly sparse. To learn from such sparse data effectively, it is crucial to account for the interactions between features. Factorization Machines (FMs) are a popular solution for efficiently using the second-order feature interactions. However, FM models feature interactions in a linear way, which can be insufficient for capturing the non-linear and complex inherent structure of real-world data. While deep neural networks have recently been applied to learn non-linear feature interactions in industry, such as the Wide&Deep by Google and DeepCross by Microsoft, the deep structure meanwhile makes them difficult to train. In this paper, we propose a novel model Neural Factorization Machine (NFM) for prediction under sparse settings. NFM seamlessly combines the linearity of FM in modelling second-order feature interactions and the non-linearity of neural network in modelling higher-order feature interactions. Conceptually, NFM is more expressive than FM since FM can be seen as a special case of NFM without hidden layers. Empirical results on two regression tasks show that with one hidden layer only, NFM significantly outperforms FM with a 7.3% relative improvement. Compared to the recent deep learning methods Wide&Deep and DeepCross, our NFM uses a shallower structure but offers better performance, being much easier to train and tune in practice.

연구 동기 및 목표

  • 무거운 피처 엔지니어링 없이 희소하고 범주형 피처 간의 상호작용을 더 잘 모델링하도록 동기를 부여한다.
  • Bi-Interaction 풀링을 FM의 2차 상호작용에 대응하는 신경망 방안으로 도입한다.
  • FM을 비선형 은닉층으로 심화시키는 Neural Factorization Machines (NFM)을 개발한다.
  • 실세계 데이터셋에서 NFM이 FM, Wide&Deep, DeepCross 대비 효과적임을 입증한다.

제안 방법

  • 임베딩 계층으로 피처당 밀집 벡터로 임베딩한다.
  • 임베딩 공간에서 2차 피처 상호작용을 포착하기 위해 Bi-Interaction 풀링을 적용한다.
  • Bi-Interaction 출력 위에 Fully Connected 층을 쌓아 고차 상호작용을 학습한다.
  • 최종 은닉 표현을 타깃 스코어로 매핑하는 예측 계층을 사용한다.
  • 은닉층이 없을 때 NFM이 FM을 일반화함을 보여준다(NFM-0).
  • Bi-Interaction 층과 은닉층에 dropout으로 정규화하고, Bi-Interaction 이후의 층들에 배치 정규화를 적용한다.

실험 결과

연구 질문

  • RQ1Bi-Interaction 풀링이 2차 피처 상호작용을 효과적으로 포착할 수 있는가?
  • RQ2NFM의 은닉층이 고차 상호작용에 대한 표현력을 향상시키는가?
  • RQ3NFM이 고차 FM 및 Wide&Deep, DeepCross와 같은 최첨단 심층 모델과 어떻게 비교되는가?
  • RQ4NFM 학습에 도움이 되는 최적화 및 정규화 전략( dropout, batch normalization )은 무엇인가?
  • RQ5FM이 NFM 프레임워크 내에서 특수한 경우로 포함되는가?

주요 결과

  • 하나의 은닉층을 가진 NFM은 테스트 작업에서 FM보다 상당히 우수하며 상대적 개선율이 7.3%이다.
  • 얕고 학습하기 쉬운 구조를 사용하면서도 Wide&Deep 및 DeepCross에 비해 경쟁력 있을 뿐 아니라 더 나은 성과를 달성한다.
  • Bi-Interaction 풀링은 2차 상호작용을 선형 시간에 모델링하는 메커니즘을 제공하여 후속 층에서 고차 상호작용 학습을 용이하게 한다.
  • Dropout은 Bi-Interaction 층과 은닉층의 정규화에 도움을 주며 표준 L2 정규화보다 더 나은 성능을 낼 수 있다.
  • 은닉층이 없을 때 NFM-0은 정확히 FM을 회복하므로 FM이 NFM의 특수한 경우임을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.