Skip to main content
QUICK REVIEW

[论文解读] From Word Embeddings to Item Recommendation

Makbule Gülçin Özsoy|arXiv (Cornell University)|Jan 7, 2016
Recommender Systems and Techniques参考文献 27被引用 52
一句话总结

本文提出将 Word2Vec 的 skip-gram 与 CBOW 技术应用于基于位置的社交网络中的用户签到序列,以学习场所的稠密向量表示,从而实现高效的下一场所推荐。该方法表现出具有竞争力的性能——尤其是 KNI(skip-gram) 变体——在 Foursquare 数据集上达到或超越了现有推荐方法的性能,表明非文本序列数据(如签到)可有效通过自然语言处理技术建模。

ABSTRACT

Social network platforms can use the data produced by their users to serve them better. One of the services these platforms provide is recommendation service. Recommendation systems can predict the future preferences of users using their past preferences. In the recommendation systems literature there are various techniques, such as neighborhood based methods, machine-learning based methods and matrix-factorization based methods. In this work, a set of well known methods from natural language processing domain, namely Word2Vec, is applied to recommendation systems domain. Unlike previous works that use Word2Vec for recommendation, this work uses non-textual features, the check-ins, and it recommends venues to visit/check-in to the target users. For the experiments, a Foursquare check-in dataset is used. The results show that use of continuous vector space representations of items modeled by techniques of Word2Vec is promising for making recommendations.

研究动机与目标

  • 探索自然语言处理技术(特别是 Word2Vec)是否可有效应用于非文本用户交互数据以实现推荐。
  • 评估基于 Word2Vec 的方法在真实世界 Foursquare 签到数据集上的下一场所推荐性能。
  • 从精确率、NDCG、命中率和覆盖率等方面,将所提出的基于 Word2Vec 的方法与传统的协同过滤和矩阵分解方法进行比较。
  • 探究从用户签到序列中学习连续向量表示是否能像传统推荐技术一样有效捕捉用户偏好。
  • 证明序列化行为数据(签到)可类比于文本序列,用于基于嵌入的推荐。

提出的方法

  • 本文将 Word2Vec 的 skip-gram 和 CBOW 模型应用于用户签到序列,将每次签到视为用户活动序列中的一个“词”。
  • 提出了三种变体:KNI(基于知识的物品相似性与 Word2Vec)、KIU(基于知识的用户相似性与 Word2Vec)以及 NN(基于邻居的 Word2Vec 物品表示)。
  • 通过 skip-gram 和 CBOW 学习场所的低维稠密嵌入,使相似场所在向量空间中彼此靠近。
  • 通过在学习到的嵌入空间中使用余弦相似度,寻找与用户最近签到最相似的场所以生成推荐。
  • 该方法通过利用物品嵌入和用户-物品交互模式,结合了内容过滤与协同过滤的优点。
  • 评估基于 Foursquare 签到数据集进行,性能通过精确率、NDCG、命中率和预测覆盖率进行衡量。

实验结果

研究问题

  • RQ1在非文本用户签到序列上训练的 Word2Vec 技术能否生成有效的场所推荐?
  • RQ2基于 Word2Vec 的推荐性能与现有协同过滤和矩阵分解方法相比如何?
  • RQ3在 skip-gram 与 CBOW 两种 Word2Vec 变体中,哪一种能带来更高的推荐准确率与覆盖率?
  • RQ4将 Word2Vec 嵌入与内容过滤或协同过滤策略结合是否能提升推荐性能?
  • RQ5基于 Word2Vec 的方法在用户签到历史稀疏或独特的场景下,其泛化能力如何?

主要发现

  • KNI(skip-gram) 方法在精确率(0.119)、NDCG(0.169)和命中率(0.618)方面表现最佳,优于大多数基线方法。
  • skip-gram 模型在所有指标上均持续优于 CBOW,表明其在签到数据的序列依赖性建模方面更优。
  • NN(skip-gram) 变体表现较差(精确率:0.070),表明仅使用物品嵌入的基于邻居的推荐方法,其效果不如基于知识的方法。
  • 所提方法实现了 100% 的预测覆盖率,显著优于 Gao-H(95.2%)和 Gao-SH(99.2%)等方法,后者对部分用户无法生成推荐。
  • 基于 Word2Vec 的方法在关键指标上与 SVD、CCD++ 和 CF-C 表现相当或更优,证明其在性能上与最先进技术具有竞争力。
  • 结果表明,使用 Word2Vec 从序列化签到行为中学习是一种有前景的替代传统协同过滤的方法,尤其在数据稀疏场景下表现更优。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。