Skip to main content
QUICK REVIEW

[论文解读] Pixie: A System for Recommending 3+ Billion Items to 200+ Million Users in Real-Time

Chantat Eksombatchai, Pranav Jindal|arXiv (Cornell University)|Nov 21, 2017
Recommender Systems and Techniques参考文献 26被引用 25
一句话总结

Pixie 是一个可扩展的、实时的基于图的推荐系统,它在包含数十亿个节点的 Pinterest 对象图上使用一种新颖的随机游走算法,为超过 2 亿名用户从 30 亿件以上商品中提供个性化推荐。相比以往系统,它将用户参与度提升了 50%,并通过在随机游走过程中引入用户特定查询偏差、多图钉加权和提前停止机制,实现了每秒 1,200 个查询、延迟 60ms 的性能表现。

ABSTRACT

User experience in modern content discovery applications critically depends on high-quality personalized recommendations. However, building systems that provide such recommendations presents a major challenge due to a massive pool of items, a large number of users, and requirements for recommendations to be responsive to user actions and generated on demand in real-time. Here we present Pixie, a scalable graph-based real-time recommender system that we developed and deployed at Pinterest. Given a set of user-specific pins as a query, Pixie selects in real-time from billions of possible pins those that are most related to the query. To generate recommendations, we develop Pixie Random Walk algorithm that utilizes the Pinterest object graph of 3 billion nodes and 17 billion edges. Experiments show that recommendations provided by Pixie lead up to 50% higher user engagement when compared to the previous Hadoop-based production system. Furthermore, we develop a graph pruning strategy at that leads to an additional 58% improvement in recommendations. Last, we discuss system aspects of Pixie, where a single server executes 1,200 recommendation requests per second with 60 millisecond latency. Today, systems backed by Pixie contribute to more than 80% of all user engagement on Pinterest.

研究动机与目标

  • 为解决在 Pinterest 这类动态、交互式平台上,面向超过 30 亿件商品和 2 亿名以上活跃用户,实现大规模实时个性化推荐的挑战。
  • 通过实现按需、低延迟的推荐,克服批处理系统的局限性,使推荐能够实时响应用户行为。
  • 利用 Pinterest 丰富的用户生成画板策划数据,构建多维度的对象图,以建模图钉之间的复杂语义关系。
  • 设计一种既可扩展又具备自适应能力的推荐算法,支持动态的用户特定偏差和提前停止机制,以保障实时性能。
  • 通过引入图结构和通过随机游走进行标签传播,提升推荐质量,超越传统协同过滤方法。

提出的方法

  • Pixie 构建了一个包含超过 1,000 亿条边的图钉与画板之间的二分图,其中用户交互行为(例如保存)定义了边,节点具有权重。
  • 它采用一种新颖的 Pixie 随机游走算法,从用户特定的加权图钉查询集出发,在图中遍历,以推荐相关的图钉和画板。
  • 该算法根据用户特定属性(如主题、语言和交互历史)对游走过程进行偏差调整,从而实现个性化推荐。
  • 它支持多个具有不同权重的查询图钉,通过组合多个独立游走的结果,优先推荐与多个查询图钉均相关的项目。
  • 它采用一种自定义的收敛准则,支持提前停止,确保与图大小无关的常数时间性能,从而实现低于 100ms 的延迟。
  • 它同时推荐图钉和画板,利用画板推荐来发现新的、冷启动的图钉,提升内容多样性。

实验结果

研究问题

  • RQ1如何使推荐系统在可扩展性上支持从 30 亿件以上商品向 2 亿名以上活跃用户实时提供个性化推荐?
  • RQ2为确保在大规模场景下实现低延迟(低于 100ms)响应时间,同时保持高推荐质量,需要哪些算法创新?
  • RQ3如何在基于图的推荐系统中有效编码并利用用户特定的行为信号(如最近交互和交互类型)?
  • RQ4在实时推荐工作负载中,具有动态偏差和提前停止机制的基于图的随机游走,能在多大程度上超越传统批处理系统?
  • RQ5图剪枝和图谱策略是否能在不牺牲覆盖率或相关性的情况下,显著提升推荐质量和系统性能?

主要发现

  • 在 A/B 测试中,Pixie 相较于之前的基于 Hadoop 的推荐系统,将单个图钉的参与度最高提升了 50%。
  • 该系统每台服务器可支持每秒 1,200 个推荐请求,第 99 百分位延迟为 60 毫秒。
  • 图剪枝使图的规模缩小了六倍,并使推荐质量额外提升了 58%。
  • 目前 Pinterest 上超过 80% 的用户参与度均由基于 Pixie 的系统驱动。
  • 利用画板推荐作为发现新图钉的代理机制,有效解决了冷启动问题,并提升了内容多样性。
  • 目前,Pixie 驱动的系统已占用户每日保存图钉总数的一半以上。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。