[论文解读] DeepFM: A Factorization-Machine based Neural Network for CTR Prediction
DeepFM 将因式分解机组件与深度神经网络在共享输入架构中融合,用于CTR预测,以建模低阶和高阶特征交互,且无需特征工程或预训练。
Learning sophisticated feature interactions behind user behaviors is critical in maximizing CTR for recommender systems. Despite great progress, existing methods seem to have a strong bias towards low- or high-order interactions, or require expertise feature engineering. In this paper, we show that it is possible to derive an end-to-end learning model that emphasizes both low- and high-order feature interactions. The proposed model, DeepFM, combines the power of factorization machines for recommendation and deep learning for feature learning in a new neural network architecture. Compared to the latest Wide \& Deep model from Google, DeepFM has a shared input to its "wide" and "deep" parts, with no need of feature engineering besides raw features. Comprehensive experiments are conducted to demonstrate the effectiveness and efficiency of DeepFM over the existing models for CTR prediction, on both benchmark data and commercial data.
研究动机与目标
- 在 CTR 预测中捕捉低阶与高阶特征交互的必要性的动机。
- 提出一个统一的神经网络架构,将 FM 和深度网络与共享输入嵌入结合。
- 通过实现联合模型的端到端训练,消除特征工程和预训练。
- 在基准数据集和工业数据集上评估 DeepFM 相对于最先进的基线。
- 展示相较于顶级深度模型具有相当的效率,同时提高预测性能。
提出的方法
- 引入一个两组件的 DeepFM 模型:一个用于二阶交互的 FM 组件和一个用于高阶交互的 DNN 组件。
- 在 FM 和 DNN 之间共享相同的输入特征嵌入,实现无需预训练的端到端联合训练。
- FM 输出:y_FM = <w,x> + sum_{i<j} <V_i,V_j> x_i x_j。
- Deep 组件:将每个字段嵌入一个 k 维向量;a^(0) = [e_1,...,e_m];a^(l+1) = sigma(W^(l) a^(l) + b^(l)); y_DNN = sigma(W^{H+1} a^(H) + b^{H+1}).
- 最终预测:y_hat = sigmoid(y_FM + y_DNN)。
- 联合训练同时优化 FM 和 DNN 部分,共享嵌入,以实现端到端的 CTR 预测。
- 与 Wide & Deep 相比,DeepFM 避免特征工程和预训练,在组件之间共享嵌入。
实验结果
研究问题
- RQ1是否存在一个端到端的单一模型,在无需特征工程的情况下同时捕捉 CTR 预测中的低阶和高阶特征交互?
- RQ2在 FM 和 DNN 之间共享嵌入是否相比使用独立嵌入或预训练组件可以提高 CTR 预测性能?
- RQ3在基准数据集和工业数据上,所提出的 DeepFM 是否比现有模型(FM、FNN、IPNN、OPNN、PNN*、Wide & Deep)更高效、效果更好?
- RQ4在大规模真实数据集上,DeepFM 在 AUC 和 LogLoss 方面的表现如何?
- RQ5在生产环境中部署 DeepFM 时有哪些实际考虑因素(训练时间、架构选择)?
主要发现
- DeepFM 在基准和工业数据上在 AUC 和 LogLoss 方面优于基线。
- 在 Company* 上,DeepFM 实现了 0.8715 AUC 和 0.02618 LogLoss,优于 LR、FM、FNN、IPNN、OPNN、PNN*、LR&DNN 以及 FM&DNN 变体。
- 在 Criteo 上,DeepFM 实现了 0.8007 AUC 和 0.45083 LogLoss,同样优于竞争模型。
- DeepFM 的效率接近最好的深度模型;无需预训练。
- 在 FM 与 DNN 之间共享嵌入相较于使用独立嵌入或预训练的模型带来性能提升。
- 总体而言,联合学习低阶和高阶交互并使用共享嵌入在所评估的模型中获得最佳 CTR 预测性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。