[论文解读] Learning Piece-wise Linear Models from Large Scale Data for Ad Click Prediction
介绍了大规模分段线性模型(LS-PLM)用于海量稀疏数据的CTR预测,包含非凸非平滑优化与实现工业级可扩展性和稀疏性的分布式训练系统。
CTR prediction in real-world business is a difficult machine learning problem with large scale nonlinear sparse data. In this paper, we introduce an industrial strength solution with model named Large Scale Piece-wise Linear Model (LS-PLM). We formulate the learning problem with $L_1$ and $L_{2,1}$ regularizers, leading to a non-convex and non-smooth optimization problem. Then, we propose a novel algorithm to solve it efficiently, based on directional derivatives and quasi-Newton method. In addition, we design a distributed system which can run on hundreds of machines parallel and provides us with the industrial scalability. LS-PLM model can capture nonlinear patterns from massive sparse data, saving us from heavy feature engineering jobs. Since 2012, LS-PLM has become the main CTR prediction model in Alibaba's online display advertising system, serving hundreds of millions users every day.
研究动机与目标
- 解决大规模稀疏数据中点击率预测的非线性、维度高的问题。
- 提出一种分段线性模型,将特征空间划分为若干区域,在每个区域拟合线性模型。
- 开发一种结合方向导数和拟牛顿步的高效优化方法,以处理非凸、非光滑的带正则化目标。
- 设计一个分布式、可扩展的训练系统,适用于数百台机器和在线广告工作负载。
- 在工业CTR场景中展示稀疏性并超越传统线性模型的性能。
提出的方法
- 定义一个近似混合的分段线性模型,其中 p(y=1|x)=g( sum_j sigma(u_j^T x) * eta(w_j^T x) ),常用的实际实现是将 sigma 设为 softmax,eta 设为 sigmoid。
- 对模型进行 L2,1 和 L1 正则化,以促进特征选择和稀疏性,从而得到非凸、非光滑的目标。
- 开发一个优化算法:(a) 使用方向导数来确定下降方向;(b) 采用带有正交象限约束的限 memory LBFGS 更新;(c) 强制执行带符号/方向约束的投影线搜索。
- 实现一个分布式、类似参数服务器的架构,工作节点本地计算,服务器汇聚损失和方向,从而实现面向工业规模数据的数据并行和模型并行。
- 使用一个共同的特征技巧,在展示广告的多样本间利用共享特征以降低内存并加速训练。
- 在大型阿里巴巴 CTR 数据集上评估并比较 LS-PLM 与逻辑回归,考察划分数量、正则化效果和共同特征优化。
实验结果
研究问题
- RQ1在没有大量特征工程的情况下,带区域特定线性预测器的分段线性模型是否能够捕捉到大型稀疏数据中的非线性CTR模式?
- RQ2在 LS-PLM 中,L1 和 L2,1 正则化如何影响稀疏性、特征选择和预测性能?
- RQ3基于方向导数的优化,结合 LBFGS 与正交象限约束,是否能高效地在工业规模数据上训练 LS-PLM?
- RQ4分布式训练系统和共同特征技巧如何提升 LS-PLM 在在线广告工作负载中的可扩展性和训练效率?
- RQ5在使用 LS-PLM 的大规模 CTR 预测中,相较于标准 LR 能获得哪些提升?
主要发现
- LS-PLM 通过将特征空间分成 m 个区域并在每个区域内拟合线性模型来建模非线性模式。
- 使用 L2,1 和 L1 正则化可产生强稀疏性,在显著减少非零参数的同时提升 AUC。
- 共同特征技巧显著降低内存使用(约为 1/3)并提升训练速度(约 12 倍),且不改变特征维度。
- 在七个阿里巴巴移动端展示CTR数据集上,LS-PLM 的 AUC 持续优于逻辑回归,且有显著的准确性提升。
- 实验中观察到的最佳参数为 division m=12,正则化值 beta=1 和 lambda=1,实现强稀疏性与高性能。
- 分布式并行实现使在数百台机器上对十亿样本规模进行训练成为可能,适合工业部署。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。