QUICK REVIEW

[论文解读] Deep Learning over Multi-field Categorical Data: A Case Study on User Response Prediction

Weinan Zhang, Tianming Du|arXiv (Cornell University)|Jan 11, 2016

Recommender Systems and Techniques参考文献 30被引用 66

一句话总结

本文提出两种深度学习模型——FNN 和 SNN——用于在线广告中使用多字段类别特征的点击率（CTR）预测。通过利用因子分解机、受限玻尔兹曼机（RBM）和去噪自编码器进行高效特征嵌入，模型能够自动学习高阶特征交互，在真实世界数据集上实现显著的 AUC 提升，性能优于线性模型和浅层模型，达到当前最优水平。

ABSTRACT

Predicting user responses, such as click-through rate and conversion rate, are critical in many web applications including web search, personalised recommendation, and online advertising. Different from continuous raw features that we usually found in the image and audio domains, the input features in web space are always of multi-field and are mostly discrete and categorical while their dependencies are little known. Major user response prediction models have to either limit themselves to linear models or require manually building up high-order combination features. The former loses the ability of exploring feature interactions, while the latter results in a heavy computation in the large feature space. To tackle the issue, we propose two novel models using deep neural networks (DNNs) to automatically learn effective patterns from categorical feature interactions and make predictions of users' ad clicks. To get our DNNs efficiently work, we propose to leverage three feature transformation methods, i.e., factorisation machines (FMs), restricted Boltzmann machines (RBMs) and denoising auto-encoders (DAEs). This paper presents the structure of our models and their efficient training algorithms. The large-scale experiments with real-world data demonstrate that our methods work better than major state-of-the-art models.

研究动机与目标

解决在在线广告中使用稀疏、多字段类别特征预测用户点击率的挑战。
克服线性模型无法捕捉复杂特征交互的局限性。
通过有效的嵌入技术，降低在高维稀疏特征上训练深度网络的计算负担。
通过在深度神经网络上使用有监督和无监督预训练方法，提升模型泛化能力和性能。
证明深度学习在大规模、稀疏类别特征空间中建模复杂非线性交互的有效性。

提出的方法

提出基于因子分解机支持的神经网络（FNN），通过因子分解机进行有监督预训练，从稀疏类别特征中学习密集的低维嵌入表示。
引入基于采样的神经网络（SNN），采用基于采样的 RBM 和去噪自编码器进行无监督预训练，以学习有效的特征表示。
采用多层全连接深度神经网络架构，结合 ReLU 或 Sigmoid 激活函数，以在嵌入后建模非线性模式。
应用钻石形网络架构（中间变窄）以在有限训练数据下提升泛化能力并减少过拟合。
使用 Dropout 和 L2 正则化防止过拟合，其中 Dropout 因其类似集成学习的平均效应而表现更优。
在 RBM 和 DAE 预训练中使用负采样，以提升大规模数据集上的训练效率和可扩展性。

实验结果

研究问题

RQ1深度神经网络能否有效建模在线广告中常见的稀疏、多字段类别特征中的高阶特征交互？
RQ2有监督与无监督预训练方法在学习 CTR 预测有效低维表示方面有何差异？
RQ3如层大小和形状等网络架构设计，如何影响 CTR 预测深度学习模型的泛化能力和性能？
RQ4正则化技术如 Dropout 和 L2 范数如何影响稀疏输入下深度网络的泛化能力和 AUC 表现？
RQ5深度学习模型能否在真实世界数据上超越传统的线性模型（如逻辑回归和因子分解机）在 CTR 估计中的表现？

主要发现

FNN 和 SNN 模型在真实世界广告数据集上相较于当前最优模型（包括逻辑回归、因子分解机和梯度提升树）实现了显著的 AUC 提升。
钻石形深度网络架构在多个数据集和隐藏单元数量下，始终优于全连接、逐渐增加和逐渐减少的层配置。
Dropout 正则化始终优于 L2 正则化，最优 Dropout 率分别为 FNN 的约 0.8 和 SNN 的约 0.99，反映出网络连接性和鲁棒性的差异。
SNN 模型对 Dropout 率的敏感性高于 FNN，因其底部全连接层结构；而 FNN 的部分连接结构在 Dropout 下更具鲁棒性。
使用因子分解机、RBM 和去噪自编码器进行预训练，可实现密集表示的高效且有效学习，减少对人工特征工程的依赖。
所提模型在测试集上泛化能力良好，性能在总隐藏单元数约 600 时达到峰值（如 200-300-100），表明该数据规模下的最优模型容量。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。