Skip to main content
QUICK REVIEW

[论文解读] Guess Who Rated This Movie: Identifying Users Through Subspace Clustering

Amy Zhang, Nadia Fawaz|arXiv (Cornell University)|Aug 7, 2012
Bayesian Methods and Mixture Models参考文献 14被引用 44
一句话总结

本文提出了一种无监督方法,通过子空间聚类识别推荐系统中共享单一账户的多个用户,将复合账户建模为线性子空间的并集。该方法在检测复合账户方面表现出高精度(仅40%假阳性率下识别出70%的复合账户),并在超过60%的情况下正确将电影分配给用户,显著提升了个性化推荐性能,且无需事先获取用户信息。

ABSTRACT

It is often the case that, within an online recommender system, multiple users share a common account. Can such shared accounts be identified solely on the basis of the user- provided ratings? Once a shared account is identified, can the different users sharing it be identified as well? Whenever such user identification is feasible, it opens the way to possible improvements in personalized recommendations, but also raises privacy concerns. We develop a model for composite accounts based on unions of linear subspaces, and use subspace clustering for carrying out the identification task. We show that a significant fraction of such accounts is identifiable in a reliable manner, and illustrate potential uses for personalized recommendation.

研究动机与目标

  • 确定是否仅从推荐系统中用户集体评分数据,即可识别出共享单一账户的多个用户。
  • 开发一种方法,检测复合账户并从无用户身份信息的前提下,将个体评分分配给不同用户。
  • 评估用户识别对提升个性化推荐准确率的影响。
  • 评估此类识别在现实推荐系统中的隐私影响。

提出的方法

  • 将复合账户建模为低维线性子空间的并集,将每位用户评分行为视为位于独立子空间中。
  • 应用子空间聚类算法(例如 Ma 等,2008 年提出的方法)将评分向量聚类为对应于各独立用户的子空间。
  • 开发一种统计检验以检测复合性,并设计一种模型选择程序以估计每个账户的用户数量。
  • 在 EM 风格算法中使用带正则化的岭回归,从聚类后的子空间学习个体用户画像。
  • 提出一种凸组合(CNV)方法,结合共享画像(Single)与用户特定画像(EM),以提升推荐性能。
  • 在真实数据集(如 CAMRa2011)上采用 5 折交叉验证,使用 RMSE 和重叠度指标评估预测准确率。

实验结果

研究问题

  • RQ1是否仅依靠用户提供的评分数据,无需任何辅助信息,即可可靠检测复合账户?
  • RQ2在多用户共享复合账户的情况下,能否从其集体评分模式中准确识别出各个用户?
  • RQ3在真实数据集中,用户识别在多大程度上提升了个性化推荐性能?
  • RQ4在推荐系统中识别共享账户背后的用户,其隐私影响是什么?

主要发现

  • 在包含单用户账户和复合账户的数据集中,70%的复合账户在选定子集 S 中被正确识别,而 S 中仅 40% 的账户为单用户账户。
  • 在被识别的复合账户中,超过 60% 的电影被正确分配给其对应用户,且具有统计显著性(p < 0.05)。
  • 在包含 54,000 名 Netflix 用户(每人评分超过 500 部电影)的数据集中,该方法以高置信度识别出 4,072 个复合用户。
  • EM 方法在重叠度指标上比单画像基线提升 14%,尽管由于评分间相似性较强,RMSE 略逊一筹。
  • 凸组合(CNV)方法实现了最佳整体性能,结合了共享画像与个体画像的优势。
  • Oracle 方法(已知用户映射)表现最佳(平均 RMSE 0.60,重叠度 1.87),证实用户识别显著提升了推荐准确率。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。