Skip to main content
QUICK REVIEW

[论文解读] Training Deep AutoEncoders for Collaborative Filtering

Oleksii Kuchaiev, Boris Ginsburg|arXiv (Cornell University)|Aug 5, 2017
Music and Audio Processing参考文献 13被引用 60
一句话总结

本文为协同过滤训练了非常深的自编码器,引入密集再馈送和高丢弃率与 SELU 激活,在 Netflix 数据上实现最先进的未来评分预测,无需预训练。

ABSTRACT

This paper proposes a novel model for the rating prediction task in recommender systems which significantly outperforms previous state-of-the art models on a time-split Netflix data set. Our model is based on deep autoencoder with 6 layers and is trained end-to-end without any layer-wise pre-training. We empirically demonstrate that: a) deep autoencoder models generalize much better than the shallow ones, b) non-linear activation functions with negative parts are crucial for training deep models, and c) heavy use of regularization techniques such as dropout is necessary to prevent over-fiting. We also propose a new training algorithm based on iterative output re-feeding to overcome natural sparseness of collaborate filtering. The new algorithm significantly speeds up training and improves model performance. Our code is available at https://github.com/NVIDIA/DeepRecommender

研究动机与目标

  • 通过使用深度自编码器来提升推荐系统中的评分预测效果。
  • 证明更深的体系结构在协同过滤中比浅层结构具有更好的泛化能力。
  • 展示具有负部且非线性激活和强正则化的重要性。
  • 引入迭代密集再馈送以解决数据稀疏性并加速训练。

提出的方法

  • 使用带有编码器和解码器镜像的深度自编码器,从稀疏的用户评分向量中学习密集表征。
  • 端到端训练,不进行逐层预训练。
  • 采用 SELU 激活、高丢弃率,以及受约束的(绑定的)权重以降低过拟合。
  • 引入迭代输出再馈送,以从稀疏输入创建密集的训练信号。
  • 优化掩蔽均方误差(MMSE),以忽略输入向量中的零值。
  • 实验不同深度、丢弃率和训练方案,包括在再馈送下使用更高学习率以提升性能。

实验结果

研究问题

  • RQ1在协同过滤中,较深的自编码器架构是否能优于较浅的模型来提升未来评分预测?
  • RQ2激活函数,特别是具有负部分的激活函数,如何影响深度协同过滤自编码器的训练?
  • RQ3哪些正则化与训练策略(例如丢弃、绑定权重、密集再馈送)能获得更好的泛化性和更快的收敛?
  • RQ4迭代密集再馈送是否允许在保持或提高性能的同时采用更高的学习率?

主要发现

数据集I-ARU-ARRRNDeepRec
Netflix 3 months0.97780.98360.94270.9373
Netflix Full0.93640.96470.92240.9099
  • 在 Netflix 数据上,较深的自编码器架构相比较浅的架构提高了评估 RMSE。
  • 具有非零负部且正部无限的激活函数(如 SELU)在本任务上优于 Sigmoid、ReLU 和 Tanh。
  • 编码层的高丢弃率(如 0.8)有助于防止过拟合并提升泛化。
  • 结合更高学习率的迭代密集再馈送在性能上显著超越基线训练。
  • 在 Netflix Full 的最佳 DeepRec 模型在他们的实验中实现了 0.9099 的测试 RMSE,优于他们报道的 I-AR、U-AR 和 RRN 等方法。
  • 在所评估的数据上,带有适当正则化的更深模型可以超过时序动态方法在未来评分预测方面的表现。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。