QUICK REVIEW

[论文解读] Scalable Recommendation with Poisson Factorization

Prem Gopalan, Jake M. Hofman|arXiv (Cornell University)|Nov 7, 2013

Recommender Systems and Techniques参考文献 48被引用 114

一句话总结

本文提出泊松分解（Poisson Factorization, PF）及其层次变体HPF，用于构建可扩展、高精度的推荐系统。通过将用户-物品交互建模为泊松分布的计数，PF自然地捕捉了稀疏、有限的用户消费行为——在显式与隐式反馈数据上，其性能优于非负矩阵分解、LDA及概率矩阵分解，HPF在20个推荐结果下的归一化精确率最高提升8个百分点。

ABSTRACT

We develop a Bayesian Poisson matrix factorization model for forming recommendations from sparse user behavior data. These data are large user/item matrices where each user has provided feedback on only a small subset of items, either explicitly (e.g., through star ratings) or implicitly (e.g., through views or purchases). In contrast to traditional matrix factorization approaches, Poisson factorization implicitly models each user's limited attention to consume items. Moreover, because of the mathematical form of the Poisson likelihood, the model needs only to explicitly consider the observed entries in the matrix, leading to both scalable computation and good predictive performance. We develop a variational inference algorithm for approximate posterior inference that scales up to massive data sets. This is an efficient algorithm that iterates over the observed entries and adjusts an approximate posterior over the user/item representations. We apply our method to large real-world user data containing users rating movies, users listening to songs, and users reading scientific papers. In all these settings, Bayesian Poisson factorization outperforms state-of-the-art matrix factorization methods.

研究动机与目标

解决传统矩阵分解在建模现实推荐系统中稀疏、有限用户消费行为方面的局限性。
开发一种可扩展的概率模型，自然处理显式评分与隐式反馈（如点击、浏览）而无需临时调整。
通过泊松似然函数，通过考虑用户特定消费预算与物品受欢迎程度的异质性，提升推荐准确性。
利用变分推理实现大规模数据集上的高效推理，确保可扩展至百亿规模的用户-物品矩阵。
在包括Netflix、Last.FM、Mendeley和NYT在内的多种真实世界数据集上，持续证明PF与HPF的优越性。

提出的方法

将用户-物品交互建模为泊松分布的计数，其强度参数为用户偏好与物品属性潜在向量的点积。
在用户与物品潜在因子上使用层次先验，以灵活、数据驱动的方式建模用户异质性与物品受欢迎程度。
采用结合随机优化的变分推理算法，仅对观测到的（非零）条目进行迭代，实现对大规模数据集的可扩展性。
应用两阶段生成过程：用户首先选择一个消费预算（消费物品数量），然后根据潜在属性将预算分配至偏好物品。
通过适当的先验分布对潜在因子施加非负性与稀疏性约束，使其与现实世界用户行为模式一致。
使用后验预测检查验证模型拟合效果，表明PF避免了经典矩阵分解中对用户预算的高估问题。

实验结果

研究问题

RQ1基于泊松分布的概率矩阵分解模型是否能比现有方法更好地捕捉现实世界用户行为？
RQ2泊松分解在显式与隐式反馈数据上是否均优于非负矩阵分解、LDA与标准矩阵分解？
RQ3该模型如何处理在不同数据领域中用户消费行为的异质性与物品受欢迎程度的差异？
RQ4其层次变体HPF是否能在不同活跃度水平的用户中提供更优性能与更强鲁棒性？
RQ5该模型的生成过程（考虑有限用户预算）是否带来更好的预测性能并减少对特定数据调参的需求？

主要发现

HPF与BPF在所有四个数据集（Netflix、Last.FM、Mendeley、NYT）上均优于所有基线方法，20个推荐结果下的归一化精确率最高提升8个百分点。
泊松分解显著优于带偏置的经典矩阵分解（MF），尤其在隐式反馈数据上，且无需临时调整零值权重。
该模型在所有用户活跃度水平下均保持优越性能，包括最不活跃的10%用户，展现出对用户稀疏性的强鲁棒性。
后验预测检查证实，经典矩阵分解系统性地高估用户预算，导致对未观测到的（零）条目过度加权——这一缺陷在PF中被避免。
探索性分析显示，HPF中学习到的组件能捕捉到有意义且可解释的主题，跨越并区分传统类别，例如在新闻文章中将自我帮助与个人理财主题区分开。
该算法在大规模数据集上实现高效扩展，包括包含81.6亿个单元与2.5亿条评分的Netflix数据集，推理过程仅使用观测条目。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。