[论文解读] GPT4Rec: A Generative Framework for Personalized Recommendation and User Interests Interpretation
GPT4Rec 将推荐视为查询生成加检索,使用基于 GPT-2 的语言模型生成多样、可解释的用户兴趣查询,并利用 BM25 检索物品,从而提升 Recall@K,并提供可解释性与冷启动处理。
Recent advancements in Natural Language Processing (NLP) have led to the development of NLP-based recommender systems that have shown superior performance. However, current models commonly treat items as mere IDs and adopt discriminative modeling, resulting in limitations of (1) fully leveraging the content information of items and the language modeling capabilities of NLP models; (2) interpreting user interests to improve relevance and diversity; and (3) adapting practical circumstances such as growing item inventories. To address these limitations, we present GPT4Rec, a novel and flexible generative framework inspired by search engines. It first generates hypothetical "search queries" given item titles in a user's history, and then retrieves items for recommendation by searching these queries. The framework overcomes previous limitations by learning both user and item embeddings in the language space. To well-capture user interests with different aspects and granularity for improving relevance and diversity, we propose a multi-query generation technique with beam search. The generated queries naturally serve as interpretable representations of user interests and can be searched to recommend cold-start items. With GPT-2 language model and BM25 search engine, our framework outperforms state-of-the-art methods by $75.7\%$ and $22.2\%$ in Recall@K on two public datasets. Experiments further revealed that multi-query generation with beam search improves both the diversity of retrieved items and the coverage of a user's multi-interests. The adaptiveness and interpretability of generated queries are discussed with qualitative case studies.
研究动机与目标
- 通过利用物品内容和自然语言处理语言建模来推动超越仅用物品ID的推荐。
- 提出一个生成框架,学习用户和物品的语言空间嵌入。
- 通过束搜索生成多查询,提供多样、可解释的用户兴趣表示。
- 在解决冷启动和物品库存变化的同时,提升相关性与多样性。
提出的方法
- 将用户历史中的物品标题格式化为提示并对 GPT-2 进行微调,以学习用户和物品的语言空间嵌入。
- 使用束搜索生成多种多样的查询,以捕捉用户兴趣的不同方面。
- 将 BM25 作为检索判别器,为每个生成的查询获取物品并汇总结果,以在相关性与多样性之间取得平衡。
- 分别训练语言模型和 BM25 参数(对物品历史进行对比式微调;对 BM25 的 k 和 b 进行网格搜索)。
- 采用基于排序的聚合,将来自多个查询的结果组合成最终的推荐列表。
实验结果
研究问题
- RQ1生成式语言模型能否捕捉丰富的物品内容信息和用户兴趣,以实现个性化推荐?
- RQ2多查询束搜索是否能产生多样、可解释的用户兴趣表示,从而提升召回率和覆盖率?
- RQ3GPT4Rec 框架如何通过基于查询的检索处理冷启动与物品库存的演变?
- RQ4将生成查询与 BM25 检索相结合对用户兴趣的多样性与覆盖率有何影响?
主要发现
| 数据集 | Recall@K | FM-BPR | ContentRec | YouTubeDNN | BERT4Rec | GPT4Rec |
|---|---|---|---|---|---|---|
| Beauty | 5 | 0.0356 | 0.0254 | 0.0376 | 0.0355 | 0.0653 |
| Beauty | 10 | 0.0499 | 0.0440 | 0.0549 | 0.0513 | 0.0810 |
| Beauty | 20 | 0.0716 | 0.0644 | 0.0753 | 0.0816 | 0.1027 |
| Beauty | 40 | 0.1040 | 0.0952 | 0.1066 | 0.1161 | 0.1297 |
| Electronics | 5 | 0.0345 | 0.0241 | 0.0352 | 0.0362 | 0.0434 |
| Electronics | 10 | 0.0387 | 0.0307 | 0.0435 | 0.0451 | 0.0480 |
| Electronics | 20 | 0.0441 | 0.0391 | 0.0539 | 0.0573 | 0.0524 |
| Electronics | 40 | 0.0505 | 0.0494 | 0.0684 | 0.0751 | 0.0574 |
- GPT4Rec 在两个公开数据集上相对于基线实现了 Recall@K 的提升,随着 K 增大尤为显著(例如在 Beauty 与 Electronics 的 Recall@40 相较于竞争方法有实质性提升)。
- 多查询束搜索在检索结果的相关性与多样性方面均有提升,当生成 K 个查询并对每个查询检索一个进行时,达到最佳 Recall@K。
- Diversity@K 与 Coverage@K 指标随着查询增多而提高,表明对用户兴趣的表示更丰富,对物品的曝光更广。
- 定性分析与案例研究展示了生成查询的可解释性,即可被人类理解的用户兴趣表示,以及对多方面偏好的有效处理。
- 该框架保持灵活性,可以整合更先进的语言模型和搜索引擎以进一步提升性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。