[논문 리뷰] DeepFM: An End-to-End Wide & Deep Learning Framework for CTR Prediction
DeepFM은 낮은 차수와 높은 차수의 특징 상호작용을 공유된 원시 특징 입력을 통해 동시에 학습하는 엔드 투 엔드 와이드 & 딥 학습 프레임워크를 제안한다. 이는 수작업 특징 공학의 필요성을 제거하며, 화웨이 앱 마켓에서의 온라인 A/B 테스트에서 잘 다듬어진 로지스틱 회귀 모델 대비 CTR가 10% 이상 향상됨.
Learning sophisticated feature interactions behind user behaviors is critical in maximizing CTR for recommender systems. Despite great progress, existing methods have a strong bias towards low- or high-order interactions, or rely on expertise feature engineering. In this paper, we show that it is possible to derive an end-to-end learning model that emphasizes both low- and high-order feature interactions. The proposed framework, DeepFM, combines the power of factorization machines for recommendation and deep learning for feature learning in a new neural network architecture. Compared to the latest Wide & Deep model from Google, DeepFM has a shared raw feature input to both its "wide" and "deep" components, with no need of feature engineering besides raw features. DeepFM, as a general learning framework, can incorporate various network architectures in its deep component. In this paper, we study two instances of DeepFM where its "deep" component is DNN and PNN respectively, for which we denote as DeepFM-D and DeepFM-P. Comprehensive experiments are conducted to demonstrate the effectiveness of DeepFM-D and DeepFM-P over the existing models for CTR prediction, on both benchmark data and commercial data. We conduct online A/B test in Huawei App Market, which reveals that DeepFM-D leads to more than 10% improvement of click-through rate in the production environment, compared to a well-engineered LR model. We also covered related practice in deploying our framework in Huawei App Market.
연구 동기 및 목표
- 기존 CTR 모델이 낮은 차수 또는 높은 차수의 특징 상호작용에만 집중하는 한계를 해결하기 위해.
- 전문가 기반 특징 공학에 의존하지 않고 원시 특징에서부터 엔드 투 엔드 학습을 가능하게 하기 위해.
- 쌍방향 상호작용을 모델링하는 인자 분해 기계(FM)와 복잡한 표현을 학습하는 딥 신경망(DNN/PNN)의 강점을 통합하기 위해.
- 깊이 신경망 구성 요소에 다양한 딥 러닝 아키텍처를 통합할 수 있는 일반화 가능한 프레임워크를 개발하기 위해.
- 오프라인 벤치마크와 실제 산업 환경에서의 구현을 통해 프레임워크의 효과성을 검증하기 위해.
제안 방법
- DeepFM은 원시 특징에서 직접 낮은 차수(쌍방향) 특징 상호작용을 모델링하는 인자 분해 기계(FM) 기반의 와이드 구성 요소를 통합한다.
- 동일한 원시 입력에서 고차수 비선형 특징 상호작용을 자동으로 학습하는 딥 신경망(DNN 또는 PNN)을 깊이 구성 요소로 사용한다.
- 와이드 및 딥 구성 요소는 동일한 원시 특징 입력을 공유하여 병합 학습을 가능하게 하며, 사전 처리나 수작업 특징 공학의 필요성을 제거한다.
- FM 구성 요소는 잠재 벡터의 내적을 통해 쌍방향 상호작용을 계산하고, 딥 구성 요소는 다중 완전 연결 층을 통해 계층적 표현을 학습한다.
- 최종 예측은 두 구성 요소의 출력을 가중치 합으로 조합하여 명시적 및 암시적 특징 상호작용을 모두 포괄할 수 있도록 한다.
- 프레임워크는 DNN 및 제품 신경망(PNN)을 포함한 다양한 깊이 아키텍처를 유연하게 지원하며, 두 가지 변형(DNN 기반 DeepFM-D와 PNN 기반 DeepFM-P)을 제공한다.
실험 결과
연구 질문
- RQ1엔드 투 엔드 딥 러닝 프레임워크는 수작업 특징 공학 없이 낮은 차수와 높은 차수의 특징 상호작용을 효과적으로 모델링할 수 있는가?
- RQ2와이드 및 딥 구성 요소 간의 공유된 원시 특징 입력이 CTR 예측 성능에 어떤 영향을 미치는가?
- RQ3실제 데이터셋에서 최신 기술 모델인 LR, 와이드 & 딥, FNN 대비 AUC 및 로그손실 측면에서 DeepFM은 어느 정도 향상되는가?
- RQ4실제 산업용 추천 시스템에서 DeepFM은 온라인 CTR 및 CVR 측면에서 뚜렷한 향상을 이룬다 할 수 있는가?
- RQ5온라인 구현에서 LR에 비해 DeepFM은 개인화, 커버리지, 추천 목록의 인기도 측면에서 어떻게 비교되는가?
주요 결과
- DeepFM-D는 화웨이 앱 마켓에서의 온라인 A/B 테스트에서 잘 다듬어진 로지스틱 회귀 모델 대비 CTR와 CVR 모두 10% 이상 향상됨.
- 온라인 A/B 테스트 결과 모든 일자에 걸쳐 일관된 향상이 관찰되었으며, 특정 일자에는 CTR가 최대 24%, CVR이 최대 25%까지 상승함.
- 세 가지 벤치마크 데이터셋에서 AUC 및 로그손실 측면에서 최신 기술 모델을 모두 초월했으며, GPU에서의 추론 효율성은 LR과 유사함.
- DeepFM-D가 생성한 추천 목록은 개인화와 커버리지 측면에서 LR보다 뚜렷이 높은 성능을 보였으며, 사용자 맞춤형 추천의 향상이 확인됨.
- LR은 인기 앱을 더 자주 추천하는 경향이 있었지만, DeepFM-D는 학습된 특징 상호작용을 통해 사용자 맞춤형 관심사를 더 잘 포착하여 인기 편향을 감소시킴.
- 프레임워크는 강력한 일반화 및 확장성 성능을 보였으며, 다중 GPU 학습 및 비동기 데이터 읽기 기능을 활용한 생산 환경에서 성공적으로 구현됨.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.