[论文解读] E-commerce in Your Inbox: Product Recommendations at Scale
本文提出了一种基于神经网络的可扩展产品推荐系统,用于 Yahoo Mail,利用从电子邮件收据中提取的用户购买历史,提供个性化产品广告。通过使用时间序列感知的神经语言模型将产品嵌入低维向量空间,并建模产品聚类之间的转移,该系统在基线广告格式上实现了 9% 的点击率提升,证明了其在实际部署中的显著有效性。
In recent years online advertising has become increasingly ubiquitous and effective. Advertisements shown to visitors fund sites and apps that publish digital content, manage social networks, and operate e-mail services. Given such large variety of internet resources, determining an appropriate type of advertising for a given platform has become critical to financial success. Native advertisements, namely ads that are similar in look and feel to content, have had great success in news and social feeds. However, to date there has not been a winning formula for ads in e-mail clients. In this paper we describe a system that leverages user purchase history determined from e-mail receipts to deliver highly personalized product ads to Yahoo Mail users. We propose to use a novel neural language-based algorithm specifically tailored for delivering effective product recommendations, which was evaluated against baselines that included showing popular products and products predicted based on co-occurrence. We conducted rigorous offline testing using a large-scale product purchase data set, covering purchases of more than 29 million users from 172 e-commerce websites. Ads in the form of product recommendations were successfully tested on online traffic, where we observed a steady 9% lift in click-through rates over other ad formats in mail, as well as comparable lift in conversion rates. Following successful tests, the system was launched into production during the holiday season of 2014.
研究动机与目标
- 开发一种基于电子邮件广告的可扩展个性化产品推荐系统,利用电子邮件收据中的购买数据。
- 通过建模用户随时间变化的购买序列,克服传统共现或基于流行度推荐的局限性。
- 实现跨供应商推荐(例如,从不同供应商购买的组合产品),而非依赖单一网站的购买模式。
- 部署一个实时、可投入生产的系统,能够以低延迟处理数百万名用户和产品。
- 通过严格的离线测试和在线 A/B 桶测试,对推荐模型进行评估与验证。
提出的方法
- 采用神经语言模型(prod2vec)基于用户购买序列学习产品的低维实值嵌入。
- 在包含超过 2900 万名用户和 172 家电子商务网站的大规模数据集上训练模型,将购买历史作为事件序列。
- 将产品嵌入聚类为语义组,以建模聚类之间的转移概率,提升下一项产品预测的准确性。
- 使用袋装-prod2vec-聚类模型,每 5 天进行一次增量更新,以保持近实时的相关性。
- 采用基于 Hadoop 和自定义键值存储的多层分布式系统,实现用户和产品档案的低延迟存储。
- 在收件箱上方的“pencil”广告位部署推荐结果,根据衰减的预测分数动态重渲染每次用户交互后的推荐内容。
实验结果
研究问题
- RQ1基于用户购买序列训练的神经语言模型,能否有效捕捉产品之间的上下文关系,以实现电子邮件中的个性化推荐?
- RQ2与基于流行度或共现的基线模型相比,基于序列的产品嵌入模型在点击率和转化率方面表现如何?
- RQ3在实时电子邮件环境中,模型更新和新鲜度在多大程度上影响产品推荐的性能?
- RQ4能否有效利用跨供应商购买模式(例如,从供应商 V1 购买 X,从 V2 购买 Y)来提升推荐的相关性?
- RQ5与通用热门产品列表相比,用户个性化推荐对电子邮件广告用户参与度的影响如何?
主要发现
- 所提出的基于神经语言模型的推荐系统在在线 A/B 测试中,相比其他广告格式,实现了 9% 的点击率(CTR)提升。
- 系统在转化率方面也表现出相当的提升,表明推荐产品带来的用户参与度高于通用或热门产品广告。
- 离线测试确认,该模型在预测准确性和相关性方面均优于基于流行度和共现的基线模型。
- 热门产品推荐的时效性更短,点击率随时间下降更快,表明其对新颖性偏差更敏感,长期有效性更差。
- 每 5 天更新一次模型不足以维持性能,7 天更新周期仍显不足,凸显了更频繁再训练的必要性。
- 该系统成功扩展至超过 2900 万名用户和 172 家电子商务领域,在生产环境中实现了 500ms 服务级别协议的低延迟预测。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。