Skip to main content
QUICK REVIEW

[논문 리뷰] Product-based Neural Networks for User Response Prediction

Yanru Qu, Han Cai|arXiv (Cornell University)|2016. 11. 01.
Text and Document Classification Technologies참고 문헌 9인용 수 52
한 줄 요약

이 논문은 온라인 광고에서 사용자 반응 예측을 위한 제품 기반 신경망(PNNs)을 제안한다. 이는 범주형 특징을 표현하기 위해 임bedding 레이어를 사용하고, 내적 또는 외적 곱을 기반으로 한 제품 레이어를 통해 분야 간 특징 상호작용을 명시적으로 모델링한다. PNNs는 두 개의 대규모 CTR 예측 데이터셋에서 최신 기술 모델을 능가하며, AUC 및 RIG와 같은 다양한 지표에서 뛰어난 성능을 보여준다.

ABSTRACT

Predicting user responses, such as clicks and conversions, is of great importance and has found its usage in many Web applications including recommender systems, web search and online advertising. The data in those applications is mostly categorical and contains multiple fields; a typical representation is to transform it into a high-dimensional sparse binary feature representation via one-hot encoding. Facing with the extreme sparsity, traditional models may limit their capacity of mining shallow patterns from the data, i.e. low-order feature combinations. Deep models like deep neural networks, on the other hand, cannot be directly applied for the high-dimensional input because of the huge feature space. In this paper, we propose a Product-based Neural Networks (PNN) with an embedding layer to learn a distributed representation of the categorical data, a product layer to capture interactive patterns between inter-field categories, and further fully connected layers to explore high-order feature interactions. Our experimental results on two large-scale real-world ad click datasets demonstrate that PNNs consistently outperform the state-of-the-art models on various metrics.

연구 동기 및 목표

  • 온라인 광고 및 추천 시스템에서 흔히 나타나는 고차원, 희박한 다중 분야 범주형 데이터에서 고차원 특징 상호작용을 모델링하는 데 도전하는 것.
  • 수작업 특징 공학에 크게 의존하고 복잡한 상호작용을 다루기 어려운 기존 모델(예: 로지스틱 회귀 및 인수분해 기반 모델)의 한계를 극복하는 것.
  • 완전 연결 레이어에서 덧셈 연산에 의존함으로써 분야 간 상호작용을 효과적으로 모델링하지 못하는 딥 네트워크의 한계를 개선하는 것.
  • 범주형 특징 간의 국소적 의존성을 명시적으로 포착할 수 있는 확장성 있고 효율적인 딥러닝 아키텍처를 개발하는 것.
  • 희박한 범주형 데이터에서 특징 상호작용을 모델링하기 위해 표준 MLP보다 제품 기반 연산(내적 및 외적 곱)이 더 우수한 대안임을 입증하는 것.

제안 방법

  • 고차원 희박 이진 특징(원-핫 인코딩에서 유도)을 효율적인 표현 학습을 가능하게 하는 조밀한 저차원 실수 벡터로 변환하기 위해 임베딩 레이어를 적용한다.
  • 다른 분야의 임베딩 벡터 간의 내적(내적 곱, IPNN) 또는 외적 곱(외적 곱, OPNN)을 계산하는 제품 레이어를 도입하여 쌍별 특징 상호작용을 명시적으로 모델링한다.
  • 제품 레이어의 출력을 후속 완전 연결(MLP) 레이어의 입력으로 사용하여 고차원 비선형 특징 상호작용을 학습한다.
  • 두 가지 변종을 설계: 내적 곱을 통한 상호작용 강도 측정을 위한 IPNN과 외적 곱 행렬을 통한 상호작용 패턴 모델링을 위한 OPNN.
  • 클릭-through 비율(CTR) 예측을 위한 표준 딥러닝 목표(예: 이진 교차 엔트로피)를 사용해 모델을 엔드 투 엔드로 훈련한다.
  • 임베딩 차원(10으로 설정), 네트워크 깊이(최적은 3층), 활성화 함수(효율성과 기울기 흐름을 고려해 ReLU를 선호)와 같은 하이퍼파라미터를 최적화한다.
Figure 1: Product-based Neural Network Architecture.
Figure 1: Product-based Neural Network Architecture.

실험 결과

연구 질문

  • RQ1범주형 데이터에서 딥 네트워크의 표준 덧셈 연산에 비해 명시적인 제품 기반 연산(내적 및 외적 곱)이 분야 간 특징 상호작용을 더 잘 포착할 수 있는가?
  • RQ2실제 CTR 예측 작업에서 IPNN과 OPNN은 FNN, FM, CCPM과 같은 기존 모델에 비해 성능에서 어떻게 비교되는가?
  • RQ3일반화성과 수렴성 측면에서 PNN의 최적 아키텍처 구성(예: 임베딩 크기, 깊이, 활성화 함수)은 무엇인가?
  • RQ4제품 레이어 사용이 고차원 희박 환경에서 기존 MLP에 비해 더 빠른 수렴과 더 나은 일반화를 이끌어내는가?
  • RQ5사전에 학습된 인수분해 기반 모델에 의존하지 않고도 PNNs가 범주형 특징 간 국소적 의존성을 효과적으로 모델링할 수 있는가?

주요 결과

  • PNNs는 iPinYou 및 Avazu 데이터셋 양쪽에서 FNN, FM, CCPM과 같은 최신 기술 모델을 항상 능가하며, AUC 및 RIG와 같은 다양한 지표에서 뛰어난 성능을 보였다.
  • IPNN은 두 데이터셋 모두에서 최고의 AUC 성능을 기록하여 OPNN 및 PNN*(하이브리드 모델)를 능가함으로써 내적 곱 연산이 특징 상호작용을 모델링하는 데 더 효과적임을 시사한다.
  • 3개의 히든 레이어를 가진 모델이 테스트 세트에서 최고의 일반화 성능를 보였으며, 이는 표현력과 과적합 사이의 균형을 고려할 때 중간 정도의 깊이가 최적임을 시사한다.
  • ReLU 활성화 함수는 희박성, 효율적인 기울기 흐름, 계산 속도를 고려해 시그모이드 및 탄젠트 함수보다 열등한 성능를 보였다.
  • PNNs는 로지스틱 회귀 및 인수분해 기반 모델보다 수렴 속도가 빠르며, 훈련 과정에서 다른 신경망 기반 베이스라인보다 더 나은 수렴 특성을 보였다.
  • 제거 실험 결과 제품 레이어가 핵심임을 확인: 제품 레이어를 제거하거나 덧셈 연산으로 대체할 경우 성능 저하가 발생함으로써 명시적 상호작용 모델링의 중요성을 입증했다.
Figure 2: AUC Comparison of Dropout (OPNN).
Figure 2: AUC Comparison of Dropout (OPNN).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.