Skip to main content
QUICK REVIEW

[논문 리뷰] Deep Learning over Multi-field Categorical Data: A Case Study on User Response Prediction

Weinan Zhang, Tianming Du|arXiv (Cornell University)|2016. 01. 11.
Recommender Systems and Techniques참고 문헌 30인용 수 66
한 줄 요약

이 논문은 온라인 광고에서 다중 분야의 순서형 특징을 사용하여 클릭-through 비율(CTR) 예측을 위한 두 가지 딥러닝 모델—FNN과 SNN—을 제안한다. 인과 분해 기반 기계, RBM, 노이즈 제거 오토인코더를 활용하여 효율적인 특징 임베딩을 구현함으로써, 모델들은 고차원 특징 상호작용을 자동으로 학습하며, 실세계 데이터셋에서 선형 모델 및 얕은 모델 대비 뚜렷한 AUC 향상을 이룩하여 최신 기술 수준의 성능을 달성한다.

ABSTRACT

Predicting user responses, such as click-through rate and conversion rate, are critical in many web applications including web search, personalised recommendation, and online advertising. Different from continuous raw features that we usually found in the image and audio domains, the input features in web space are always of multi-field and are mostly discrete and categorical while their dependencies are little known. Major user response prediction models have to either limit themselves to linear models or require manually building up high-order combination features. The former loses the ability of exploring feature interactions, while the latter results in a heavy computation in the large feature space. To tackle the issue, we propose two novel models using deep neural networks (DNNs) to automatically learn effective patterns from categorical feature interactions and make predictions of users' ad clicks. To get our DNNs efficiently work, we propose to leverage three feature transformation methods, i.e., factorisation machines (FMs), restricted Boltzmann machines (RBMs) and denoising auto-encoders (DAEs). This paper presents the structure of our models and their efficient training algorithms. The large-scale experiments with real-world data demonstrate that our methods work better than major state-of-the-art models.

연구 동기 및 목표

  • 온라인 광고에서 흩어진 다중 분야 순서형 특징을 활용해 사용자 클릭-through 비율을 예측하는 문제에 대응하기 위해.
  • 복잡한 특징 상호작용을 포착하지 못하는 선형 모델의 한계를 극복하기 위해.
  • 고차원 흩어진 특징에 대한 딥 네트워크 학습의 계산 부담을 효과적인 임베딩 기법을 통해 줄이기 위해.
  • 딥 네트워크에 대해 지도 및 비지도 사전 훈련 방법을 적용하여 일반화 능력과 성능을 향상시키기 위해.
  • 대규모 흩어진 순서형 특징 공간에서 복잡한 비선형 상호작용을 모델링하는 데 있어 딥러닝의 효과성을 입증하기 위해.

제안 방법

  • 희소 순서형 특징에서 조밀하고 저차원의 임베딩을 학습하기 위해 인과 분해 기반 기계를 활용한 지도 사전 훈련을 수행하는 인과 분해 기반 신경망(FNN)을 제안한다.
  • 샘플링 기반 RBM과 노이즈 제거 오토인코더를 사용한 비지도 사전 훈련을 통해 효과적인 특징 표현을 학습하는 샘플링 기반 신경망(SNN)을 도입한다.
  • 임베딩 이후 비선형 패턴을 모델링하기 위해 ReLU 또는 시그모이드 활성화 함수를 사용하는 다층 완전 연결 딥 네트워크 아키텍처를 적용한다.
  • 제한된 훈련 데이터에서 일반화 능력을 향상시키고 과적합을 줄이기 위해 중간부가 좁아지는 다이아몬드 모양의 네트워크 아키텍처를 사용한다.
  • 과적합 방지를 위해 드롭아웃과 L2 정규화를 적용하며, 드롭아웃은 백싱 기반 평균 효과를 가지므로 더 효과적임을 확인하였다.
  • 대규모 데이터셋에서의 훈련 효율성과 확장성을 향상시키기 위해 RBM과 DAE 사전 훈련 시 음성 샘플링을 적용한다.

실험 결과

연구 질문

  • RQ1희소하고 다중 분야의 순서형 특징이 흔한 온라인 광고 환경에서 딥 네트워크가 고차원 특징 상호작용을 효과적으로 모델링할 수 있는가?
  • RQ2CTR 예측을 위한 효과적인 저차원 표현을 학습하는 데 있어 지도 및 비지도 사전 훈련 방법의 성능는 어떻게 비교되는가?
  • RQ3층 수와 형태와 같은 아키텍처 설계는 CTR 예측을 위한 딥러닝 모델에서 최적의 일반화 능력과 성능를 제공하는가?
  • RQ4드롭아웃과 L2 노름과 같은 정규화 기법은 희소 입력을 가진 딥 네트워크에서 일반화 능력과 AUC 성능에 어떤 영향을 미치는가?
  • RQ5딥러닝 모델은 실세계 데이터에서 기존의 선형 모델(예: 로지스틱 회귀, FMs)보다 CTR 추정 성능에서 뛰어나게 성능을 발휘할 수 있는가?

주요 결과

  • 실세계 광고 데이터셋에서 FNN과 SNN 모델은 로지스틱 회귀, FMs, 기울기 부스팅 트리와 같은 최신 기술 수준의 모델들보다 뚜렷한 AUC 향상을 이룩하였다.
  • 다이아몬드 모양의 딥 네트워크 아키텍처는 여러 데이터셋과 은닉 유닛 수에 걸쳐 완전 연결, 증가형, 감소형 층 구성보다 일관되게 뛰어난 성능을 보였다.
  • 드롭아웃 정규화는 항상 L2 정규화를 능가했으며, FNN의 최적 드롭아웃 비율은 약 0.8, SNN는 약 0.99로, 네트워크 연결성과 내성적 저항력의 차이를 반영하였다.
  • SNN 모델은 하단의 완전 연결 층으로 인해 FNN보다 드롭아웃 비율에 더 민감했으며, FNN의 부분 연결성은 드롭아웃 하에서 더 높은 내성적 저항력을 보였다.
  • 인과 분해 기반 기계, RBM, 노이즈 제거 오토인코더를 활용한 사전 훈련은 조밀한 표현을 효율적이고 효과적으로 학습시켜 수작업 특징 공학의 필요성을 줄였다.
  • 제안된 모델들은 테스트 세트에서도 잘 일반화되었으며, 총 은닉 유닛 약 600개(예: 200-300-100)에서 성능가장 높아지는 것으로 나타나, 주어진 데이터 크기에 최적의 능력 수준임을 시사하였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.