[论文解读] Behavior Sequence Transformer for E-commerce Recommendation in Alibaba
论文介绍一种行为序列变换器(BST),使用 Transformer 来建模用户在淘宝推荐中的点击序列,在离线 AUC 和在线 CTR 方面比基线有提升,并已在生产环境部署。
Deep learning based methods have been widely used in industrial recommendation systems (RSs). Previous works adopt an Embedding&MLP paradigm: raw features are embedded into low-dimensional vectors, which are then fed on to MLP for final recommendations. However, most of these works just concatenate different features, ignoring the sequential nature of users' behaviors. In this paper, we propose to use the powerful Transformer model to capture the sequential signals underlying users' behavior sequences for recommendation in Alibaba. Experimental results demonstrate the superiority of the proposed model, which is then deployed online at Taobao and obtain significant improvements in online Click-Through-Rate (CTR) comparing to two baselines.
研究动机与目标
- 激发在电子商务中捕捉用户行为的序列信号以改进 CTR 预测的需求。
- 提出一种基于 Transformer 的架构(BST),在嵌入与 MLP 框架之上建模行为序列。
- 展示 BST 相对于强基线在离线和在线上的提升,并讨论在淘宝的生产部署。
提出的方法
- 使用嵌入层将多样化特征嵌入到低维向量中。
- 应用 Transformer(自注意力)来学习用户行为序列中项的更深层表示。
- 将序列表示与其他特征拼接后输入到三层 MLP 以进行 CTR 预测。
- 使用带自定义位置编码的定位特征来包含项的位置。
- 使用交叉熵损失进行训练,并采用 dropout 和 LayerNorm 进行正则化。
实验结果
研究问题
- RQ1将基于 Transformer 的序列建模引入是否能相对于 WDL 和 DIN 基线提升 CTR 预测?
- RQ2BST 在离线(AUC)和在线(CTR)方面相较基线以及经过序列增强的 WDL 的表现如何?
- RQ3Transformer 块数量对性能与生产效率的影响是什么?
- RQ4就延迟(RT)和部署而言,BST 是否适用于大规模生产?
主要发现
| 方法 | 离线 AUC | 在线 CTR 增益 | 平均 RT(ms) |
|---|---|---|---|
| WDL | 0.7734 | - | 13 |
| WDL(+Seq) | 0.7846 | +3.03% | 14 |
| DIN | 0.7866 | +4.55% | 16 |
| BST(b=1) | 0.7894 | +7.57% | 20 |
| BST(b=2) | 0.7885 | - | - |
| BST(b=3) | 0.7823 | - | - |
- BST 将离线 AUC 提升至 0.7894,优于 WDL 和 DIN 基线。
- BST 在 b=1 时对对照组的在线 CTR 增益最大,为 +7.57%。
- 当用简单平均法进行增强(WDL(+Seq))时,序列信息对 WDL 有帮助;带 Transformer 的 BST 捕捉到更丰富的序列信号。
- 具有单个 Transformer 块(b=1)的 BST 实现了最佳的离线 AUC,并在生产中保持具有竞争力的延迟。
- BST 已在淘宝的排序阶段部署,为数以亿计的用户提供服务,并维持可接受的平均响应时间。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。