[论文解读] Deep & Cross Network for Ad Click Predictions
本文提出深度交叉网络(DCN),一种新型神经网络架构,通过创新的交叉网络模块显式学习有界阶数的特征交互,结合深度神经网络以提升点击率(CTR)预测性能。DCN在更低内存消耗下实现最先进性能,无需人工特征工程,在CTR与非CTR数据集上均优于DNN及现有模型。
Feature engineering has been the key to the success of many prediction models. However, the process is non-trivial and often requires manual feature engineering or exhaustive searching. DNNs are able to automatically learn feature interactions; however, they generate all the interactions implicitly, and are not necessarily efficient in learning all types of cross features. In this paper, we propose the Deep & Cross Network (DCN) which keeps the benefits of a DNN model, and beyond that, it introduces a novel cross network that is more efficient in learning certain bounded-degree feature interactions. In particular, DCN explicitly applies feature crossing at each layer, requires no manual feature engineering, and adds negligible extra complexity to the DNN model. Our experimental results have demonstrated its superiority over the state-of-art algorithms on the CTR prediction dataset and dense classification dataset, in terms of both model accuracy and memory usage.
研究动机与目标
- 解决大规模广告系统中CTR预测面临的手动且繁琐的特征工程挑战。
- 开发一种模型,能够高效学习显式的、有界阶数的特征交互,而无需依赖人工设计的交叉特征。
- 将深度神经网络的表达能力与显式交叉网络相结合,系统性地构建高阶交互。
- 在保持或提升稀疏高维数据集预测准确率的同时,降低模型复杂度与内存使用。
- 在CTR与通用密集分类任务上验证所提架构的有效性。
提出的方法
- 深度与交叉网络(DCN)将深度神经网络(DNN)与新型交叉网络结合,后者在每一层应用显式特征交叉。
- 每个交叉层计算阶数递增的多项式交互,最高阶交互程度由交叉网络的深度决定。
- 交叉网络使用可学习权重矩阵与偏置向量,计算输入特征与其交叉项之间的交互,形式为:$ x^{(l)} = x^{(l-1)} \bullet W^{(l)} + x^{(0)} \bullet V^{(l)} + b^{(l)} $。
- 交叉网络保留来自前一层的低阶交互,使模型能够学习到最高阶数以内的所有交叉项。
- DNN与交叉网络组件联合训练,使模型既能通过DNN获得隐式的高阶交互,又能通过交叉网络实现显式的低至中阶交互。
- 该架构设计为内存高效,额外参数量几乎可忽略,仅略高于标准DNN。
实验结果
研究问题
- RQ1能否设计一种神经网络架构,显式学习有界阶数的特征交互,而无需人工特征工程?
- RQ2将显式特征交叉与深度学习结合,是否能提升CTR预测中的模型准确率与效率?
- RQ3在对数损失与内存使用方面,所提出的DCN相较于SOTA模型(如DNN与wide-and-deep)表现如何?
- RQ4交叉网络组件能否在非CTR、密集分类任务上具有良好泛化能力?
- RQ5为实现模型复杂度与预测性能之间的最佳权衡,交叉层的最优数量是多少?
主要发现
- 在Criteo CTR数据集上,DCN以250万个参数实现验证对数损失0.4423,优于DNN(0.4431),误差降低0.0008。
- 在110万个参数的内存预算下,DCN实现对数损失0.4426,而DNN为0.4433,表明在所有内存预算下均保持一致改进。
- 在森林覆盖类型数据集上,DCN实现测试准确率0.9740,与最佳DNN和DC模型相当,但内存消耗更低。
- 在Higgs数据集上,DCN实现测试对数损失0.4494,优于DNN(0.4506),且仅使用最优DNN配置一半的内存。
- 增加交叉层能持续提升性能(相比纯DNN,对数损失降低0.05–0.28×10⁻²),但超过某一深度后性能增益趋于减弱或波动。
- 交叉网络学习显式、低阶交互的能力在捕捉特定特征交互方面比DNN更高效,尤其在高维稀疏场景下。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。