Skip to main content
QUICK REVIEW

[论文解读] Predicting online user behaviour using deep learning algorithms

Armando Vieira|arXiv (Cornell University)|Nov 19, 2015
Complex Network Analysis Techniques参考文献 2被引用 41
一句话总结

本文提出一种基于深度置信网络(DBN)和堆叠去噪自编码器(SdA)的深度学习框架,利用电子商务平台的点击流数据预测在线用户购买意图,在正负样本极度不平衡(仅3%购买会话)的数据集上实现了SOTA级别的AUC性能(0.86),显著优于逻辑回归和随机森林等传统模型。

ABSTRACT

We propose a robust classifier to predict buying intentions based on user behaviour within a large e-commerce website. In this work we compare traditional machine learning techniques with the most advanced deep learning approaches. We show that both Deep Belief Networks and Stacked Denoising auto-Encoders achieved a substantial improvement by extracting features from high dimensional data during the pre-train phase. They prove also to be more convenient to deal with severe class imbalance.

研究动机与目标

  • 通过在高维稀疏点击流数据上应用深度学习,提升电子商务中的购买意图预测性能。
  • 解决真实电子商务数据集中常见的严重类别不平衡问题(仅3%购买会话)。
  • 评估深度学习架构(特别是DBN和SdA)相较于逻辑回归、随机森林等传统机器学习模型的有效性。
  • 探究无监督预训练在提升稀疏高维用户行为数据泛化能力与性能方面的角色。
  • 通过贝叶斯优化对深度神经网络超参数进行调优,以在验证数据上实现最大AUC性能。

提出的方法

  • 使用来自大型电子商务平台的点击流数据,包括页面浏览、购物车浏览和购买事件,共包含100万次会话和25,000种产品类型。
  • 通过聚合用户会话、计算商品查看时长,并利用word2vec(50维)为点击事件补充商品特定特征和文本嵌入,完成数据预处理。
  • 采用非负矩阵分解(NMF)进行降维,聚焦于覆盖85%页面浏览量和92%购买量的257个高流量产品类别。
  • 应用无监督预训练技术(DBN和SdA)从原始高维输入中提取分层特征。
  • 通过反向传播对深层网络进行微调,输出层为Softmax,并利用贝叶斯优化(共20次试验)对超参数(学习率、dropout、L2正则化等)进行优化。
  • 使用Keras配合Theano后端实现,模型在多个数据集上进行评估,超参数在数据集3上调优后在其余数据集中保持一致。

实验结果

研究问题

  • RQ1深度学习模型(如DBN和SdA)是否能在从稀疏点击流数据中预测在线购买意图方面优于传统机器学习模型(如逻辑回归、随机森林)?
  • RQ2无监督预训练技术(DBN和SdA)在仅含少量标注购买事件的高不平衡电子商务数据集上,是否能有效提升模型性能?
  • RQ3在该场景下,哪些超参数配置(学习率、dropout、L2正则化等)能为深度神经网络带来最优的AUC性能?
  • RQ4为产品描述引入word2vec嵌入是否能提升模型的预测能力?
  • RQ5随着训练数据规模的增加,模型性能如何变化?其在可扩展性和训练效率方面存在哪些局限?

主要发现

  • 堆叠去噪自编码器(SdA)在数据集6上实现了最高的AUC(0.86),显著优于其他模型,包括DBN(0.84)和传统方法。
  • DBN与SdA均在处理高维稀疏数据方面显著优于逻辑回归和随机森林等传统模型。
  • DBN与SdA中的无监督预训练有效提升了特征提取能力和泛化性能,尤其在仅3%购买会话的样本稀缺场景下优势明显。
  • 贝叶斯优化能有效调优深度网络超参数,其中dropout与L2正则化对ReLU激活网络最为有效。
  • 随着数据规模增大,深度学习与传统模型之间的性能差距进一步扩大,表明深度架构在可扩展性方面具有优势。
  • 尽管性能优异,模型的并行化效率有限,表明其在实时部署中面临计算成本高和数据稀疏性带来的挑战。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。