[论文解读] Deep Interest Network for Click-Through Rate Prediction
本文提出深度兴趣网络(DIN),一种用于点击率(CTR)预测的新型深度学习模型,通过为每个候选广告动态关注相关的历史行为,自适应地调整用户兴趣表征。通过引入局部激活单元和数据自适应技术,DIN提升了对多样化用户兴趣的建模能力,在真实世界数据集上达到0.6083的SOTA AUC,并在在线A/B测试中实现10.0%的CTR提升。
Click-through rate prediction is an essential task in industrial applications, such as online advertising. Recently deep learning based models have been proposed, which follow a similar Embedding\&MLP paradigm. In these methods large scale sparse input features are first mapped into low dimensional embedding vectors, and then transformed into fixed-length vectors in a group-wise manner, finally concatenated together to fed into a multilayer perceptron (MLP) to learn the nonlinear relations among features. In this way, user features are compressed into a fixed-length representation vector, in regardless of what candidate ads are. The use of fixed-length vector will be a bottleneck, which brings difficulty for Embedding\&MLP methods to capture user's diverse interests effectively from rich historical behaviors. In this paper, we propose a novel model: Deep Interest Network (DIN) which tackles this challenge by designing a local activation unit to adaptively learn the representation of user interests from historical behaviors with respect to a certain ad. This representation vector varies over different ads, improving the expressive ability of model greatly. Besides, we develop two techniques: mini-batch aware regularization and data adaptive activation function which can help training industrial deep networks with hundreds of millions of parameters. Experiments on two public datasets as well as an Alibaba real production dataset with over 2 billion samples demonstrate the effectiveness of proposed approaches, which achieve superior performance compared with state-of-the-art methods. DIN now has been successfully deployed in the online display advertising system in Alibaba, serving the main traffic.
研究动机与目标
- 为解决现有Embedding&MLP模型中固定长度用户表征向量的局限性,该向量将多样化用户兴趣压缩为单一固定向量。
- 通过实现动态、广告特定的用户兴趣表征,提升深度学习模型在CTR预测中的表达能力。
- 开发适用于包含数十亿参数和稀疏特征的大规模工业级深度神经网络的训练技术。
- 通过离线与在线评估,验证DIN在真实世界在线广告系统中的有效性。
提出的方法
- 引入局部激活单元,基于用户行为与候选广告的相关性计算注意力权重,实现广告特定的兴趣表征。
- 利用学习到的注意力权重对用户行为嵌入进行加权求和池化,生成上下文感知的用户嵌入。
- 提出小批量感知正则化,仅在每个小批量中对非零特征参数计算L2正则化,降低计算成本。
- 设计数据自适应激活函数(Dice),从数据分布中学习参数,提升训练稳定性和性能。
- 采用双塔架构,用户与物品特征共享嵌入层,随后通过交互层和全连接层进行最终预测。
- 使用t-SNE可视化展示DIN在嵌入空间中学习到的聚类化、多模态用户兴趣表征。
实验结果
研究问题
- RQ1深度学习模型能否根据候选广告的上下文动态调整用户兴趣表征,而非使用固定长度向量?
- RQ2与固定长度用户嵌入相比,对历史行为进行局部注意力机制如何提升CTR预测性能?
- RQ3小批量感知正则化能否实现对具有稀疏特征和数十亿参数的大规模深度网络的高效训练?
- RQ4数据自适应Dice激活函数是否能提升工业级CTR预测任务中的收敛速度与性能?
- RQ5DIN在真实生产广告系统中对在线CTR和收入指标的提升程度如何?
主要发现
- DIN在阿里巴巴真实世界数据集上达到0.6083的AUC,相比SOTA模型实现11.65%的相对提升。
- 在线A/B测试显示,DIN相比先前在线模型将CTR提升最高达10.0%,RPM提升3.8%。
- 局部激活单元成功突出与候选广告最相关的用户行为,通过注意力权重可视化得以验证。
- t-SNE可视化证实,DIN在嵌入空间中学习到聚类化、多模态的用户兴趣分布,同类商品形成独立聚类。
- 小批量感知正则化与Dice激活函数的结合使AUC进一步提升0.0054,优于标准训练方式。
- DIN已成功部署于阿里巴巴在线展示广告系统,支撑主要流量,实现低延迟、高吞吐量的推理。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。