[论文解读] BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer
BERT4Rec 引入了一种基于 Transformer 的双向模型用于序列推荐,并使用 Cloze(掩码语言模型)目标在不产生信息泄漏的情况下进行训练,在四个数据集上达到最先进的结果。
Modeling users' dynamic and evolving preferences from their historical behaviors is challenging and crucial for recommendation systems. Previous methods employ sequential neural networks (e.g., Recurrent Neural Network) to encode users' historical interactions from left to right into hidden representations for making recommendations. Although these methods achieve satisfactory results, they often assume a rigidly ordered sequence which is not always practical. We argue that such left-to-right unidirectional architectures restrict the power of the historical sequence representations. For this purpose, we introduce a Bidirectional Encoder Representations from Transformers for sequential Recommendation (BERT4Rec). However, jointly conditioning on both left and right context in deep bidirectional model would make the training become trivial since each item can indirectly "see the target item". To address this problem, we train the bidirectional model using the Cloze task, predicting the masked items in the sequence by jointly conditioning on their left and right context. Comparing with predicting the next item at each position in a sequence, the Cloze task can produce more samples to train a more powerful bidirectional model. Extensive experiments on four benchmark datasets show that our model outperforms various state-of-the-art sequential models consistently.
研究动机与目标
- 激励从历史互动中建模动态、顺序不确定的用户偏好。
- 提出用于序列推荐的基于双向 Transformer 的架构。
- 通过 Cloze(掩码语言模型)目标解决来自双向性带来的训练挑战。
- 在多个数据集上展示超越最新基线的性能。
- 提供消融研究以分离双向性和 Cloze 目标的贡献。
提出的方法
- 采用 Bidirectional Encoder Representations from Transformers (BERT) 来建模用户行为序列。
- 使用具有多头自注意力的 Transformer 来捕捉整个序列的依赖关系。
- 通过对子集项目进行遮蔽并从左、右上下文预测它们来使用 Cloze 目标进行训练,以避免信息泄漏。
- 在测试时追加最后一个 [mask] 标记以预测与序列任务一致的下一个项目。
- 在输入和输出层之间共享项目嵌入,以减少参数并防止过拟合。
- 进行消融研究以分离双向性和 Cloze 目标的影响。
实验结果
研究问题
- RQ1双向自注意力是否相较于单向模型提升序列推荐?
- RQ2Cloze 目标对训练效率和推荐性能有何影响?
- RQ3双向性和 Cloze 目标各自对相对于强基线的提升贡献有多大?
- RQ4BERT4Rec 在不同数据集上与现有最先进的序列模型相比表现如何?
主要发现
- BERT4Rec 在四个基准数据集上始终优于最先进的基线。
- 消融结果显示双向建模和 Cloze 目标都对性能提升有贡献,其中双向性带来显著收益。
- 该模型在多数据集上的 HR@k、NDCG@k 和 MRR 显著提升。
- Cloze 目标为每个序列带来更多训练样本,从而实现更强的双向表示。
- 对注意力模式的可视化分析表明,双向 Transformer 捕捉到有意义的跨位置依赖。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。