Skip to main content
QUICK REVIEW

[论文解读] DeepFM: An End-to-End Wide & Deep Learning Framework for CTR Prediction

Huifeng Guo, Ruiming Tang|arXiv (Cornell University)|Apr 12, 2018
Recommender Systems and Techniques参考文献 37被引用 33
一句话总结

DeepFM 提出了一种用于点击率(CTR)预测的端到端宽与深学习框架,通过共享原始特征输入,联合学习低阶与高阶特征交互,消除了对手动特征工程的依赖。在华为应用市场的真实在线A/B测试中,该方法相较于经过精心设计的逻辑回归模型,CTR提升超过10%。

ABSTRACT

Learning sophisticated feature interactions behind user behaviors is critical in maximizing CTR for recommender systems. Despite great progress, existing methods have a strong bias towards low- or high-order interactions, or rely on expertise feature engineering. In this paper, we show that it is possible to derive an end-to-end learning model that emphasizes both low- and high-order feature interactions. The proposed framework, DeepFM, combines the power of factorization machines for recommendation and deep learning for feature learning in a new neural network architecture. Compared to the latest Wide & Deep model from Google, DeepFM has a shared raw feature input to both its "wide" and "deep" components, with no need of feature engineering besides raw features. DeepFM, as a general learning framework, can incorporate various network architectures in its deep component. In this paper, we study two instances of DeepFM where its "deep" component is DNN and PNN respectively, for which we denote as DeepFM-D and DeepFM-P. Comprehensive experiments are conducted to demonstrate the effectiveness of DeepFM-D and DeepFM-P over the existing models for CTR prediction, on both benchmark data and commercial data. We conduct online A/B test in Huawei App Market, which reveals that DeepFM-D leads to more than 10% improvement of click-through rate in the production environment, compared to a well-engineered LR model. We also covered related practice in deploying our framework in Huawei App Market.

研究动机与目标

  • 为解决现有CTR模型在低阶或高阶特征交互方面关注过窄的局限性。
  • 通过端到端学习原始特征,消除对专家驱动特征工程的依赖。
  • 统一因子分解机(FM)在建模成对交互方面的优势与深度神经网络(DNN/PNN)在学习复杂表征方面的能力。
  • 开发一种可泛化的框架,能够在其深度组件中集成各种深度学习架构。
  • 在离线基准测试和真实工业部署中验证该框架的有效性。

提出的方法

  • DeepFM将基于因子分解机(FM)的宽组件集成进来,直接从原始特征建模低阶(成对)特征交互。
  • 其深度组件采用深度神经网络(DNN或PNN),从相同的原始输入自动学习高阶非线性特征交互。
  • 宽组件与深组件共享相同的原始特征输入,支持联合训练,无需预处理或手动特征工程。
  • FM组件通过潜在向量的点积计算成对交互,而深度组件则通过多层全连接层学习分层表征。
  • 最终预测通过加权求和结合两个组件的输出,使模型能够同时捕捉显式与隐式特征交互。
  • 该框架支持灵活的深度架构,包括DNN和产品神经网络(PNN),并提供两种变体:DeepFM-D与DeepFM-P。

实验结果

研究问题

  • RQ1一个端到端的深度学习框架是否能在无需手动特征工程的情况下,有效建模低阶与高阶特征交互?
  • RQ2宽组件与深组件之间共享原始特征输入,对CTR预测性能有何影响?
  • RQ3在真实世界数据集上,DeepFM相较于SOTA模型(如LR、Wide & Deep、FNN)在AUC与Logloss指标上的表现提升程度如何?
  • RQ4DeepFM在真实工业推荐系统中的在线CTR与CVR上是否实现了显著提升?
  • RQ5在在线部署中,DeepFM相较于LR在推荐列表的个性化、覆盖率和流行度方面表现如何?

主要发现

  • 在华为应用市场的真实在线A/B测试中,DeepFM-D相较于经过精心设计的逻辑回归模型,CTR与CVR均提升超过10%。
  • 在线A/B测试显示,所有天数均呈现一致提升,CTR最高达到24%,CVR最高达到25%。
  • 在三个基准数据集上,DeepFM-D在AUC与Logloss指标上均优于SOTA模型,且在GPU上的推理效率与LR相当。
  • DeepFM-D生成的推荐列表个性化与覆盖率显著高于LR,表明其能提供更精准的用户特定推荐。
  • LR倾向于频繁推荐热门应用,而DeepFM-D通过学习到的特征交互,更有效地捕捉用户特定兴趣,从而降低了流行度偏差。
  • 该框架展现出强大的泛化能力与可扩展性,已在生产环境中成功部署,采用多GPU训练与异步数据读取技术。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。