Skip to main content
QUICK REVIEW

[论文解读] Improved Recurrent Neural Networks for Session-based Recommendations

Yong Tan, Xinxing Xu|arXiv (Cornell University)|Jun 27, 2016
Recommender Systems and Techniques参考文献 25被引用 65
一句话总结

本论文通过引入序列预处理和嵌入丢弃的数据增强方法,解决用户行为的时间偏移问题,并提出一种直接预测项目嵌入的新模型,从而改进基于循环神经网络(RNN)的会话推荐。该方法在召回率@20和MRR@20上分别实现了12.8%和14.8%的相对提升,同时减少了推理时间和模型大小,有利于实时部署。

ABSTRACT

Recurrent neural networks (RNNs) were recently proposed for the session-based recommendation task. The models showed promising improvements over traditional recommendation approaches. In this work, we further study RNN-based models for session-based recommendations. We propose the application of two techniques to improve model performance, namely, data augmentation, and a method to account for shifts in the input data distribution. We also empirically study the use of generalised distillation, and a novel alternative model that directly predicts item embeddings. Experiments on the RecSys Challenge 2015 dataset demonstrate relative improvements of 12.8% and 14.8% over previously reported results on the Recall@20 and Mean Reciprocal Rank@20 metrics respectively.

研究动机与目标

  • 提升基于RNN的会话推荐模型性能,超越现有基线方法。
  • 通过在更近期的训练数据子集中微调模型,应对用户行为随时间带来的数据分布偏移。
  • 通过直接预测项目嵌入而非使用分类层,减少推理时间和内存占用,以支持实时部署。
  • 评估利用特权信息进行蒸馏在小数据集上的有效性。
  • 研究嵌入丢弃和序列预处理等数据增强技术对模型泛化能力的影响。

提出的方法

  • 通过序列预处理和嵌入丢弃对训练数据进行增强,以减少过拟合。
  • 在更近期的数据子集上重新训练模型,以应对用户行为的时间偏移。
  • 使用来自在后续序列上训练的教师模型生成的软标签进行知识蒸馏,以提升学生模型性能。
  • 提出一种新型RNN架构,直接预测项目嵌入,随后通过余弦相似度层进行打分。
  • 使用GRU层(隐藏单元数为100或1000)进行模型训练,并采用基于排序的损失函数。
  • 使用Keras和Theano进行实现,并在RecSys Challenge 2015数据集上进行模型评估。

实验结果

研究问题

  • RQ1通过序列预处理和嵌入丢弃进行数据增强,能否提升基于RNN的会话推荐性能?
  • RQ2在存在用户行为时间偏移的情况下,基于近期数据子集的再训练如何影响模型性能?
  • RQ3利用未来序列的特权信息进行知识蒸馏,能否带来性能增益,尤其是在小数据集上?
  • RQ4与使用Softmax输出层相比,直接预测项目嵌入是否能减少推理时间与模型大小而不损失准确性?
  • RQ5在所提出的基于嵌入的RNN模型中,预测准确率与推理效率之间存在何种权衡?

主要发现

  • 所提出的增强策略使召回率@20相对提升了12.8%,MRR@20相对提升了14.8%,优于以往基于RNN的结果。
  • 在更近期数据子集上重新训练可提升性能,表明用户行为随时间发生变化,必须加以建模。
  • 利用特权信息的知识蒸馏在小数据集上带来了适度的性能增益,验证了其在低数据场景下的有效性。
  • 直接预测项目嵌入的模型(M4)相比基于分类的模型,批量预测时间减少了约60%,模型大小减少了60%以上。
  • 将GRU隐藏单元数从100增加到1000并未显著提升性能,表明在达到一定容量后收益递减。
  • M4模型在召回率@20上达到0.6676,MRR@20为0.2847,优于基线RNN模型,但相比M1和M2表现较差,表明在使用更优嵌入后仍有改进空间。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。