[论文解读] ONCE: Boosting Content-based Recommendation with Both Open- and Closed-source Large Language Models
ONCE 通过将开放源代码 LLM 作为内容编码器、封闭源代码 LLM 作为数据增强来提升内容基推荐系统,展现显著收益并实现两类模型的互补协同效应。
Personalized content-based recommender systems have become indispensable tools for users to navigate through the vast amount of content available on platforms like daily news websites and book recommendation services. However, existing recommenders face significant challenges in understanding the content of items. Large language models (LLMs), which possess deep semantic comprehension and extensive knowledge from pretraining, have proven to be effective in various natural language processing tasks. In this study, we explore the potential of leveraging both open- and closed-source LLMs to enhance content-based recommendation. With open-source LLMs, we utilize their deep layers as content encoders, enriching the representation of content at the embedding level. For closed-source LLMs, we employ prompting techniques to enrich the training data at the token level. Through comprehensive experiments, we demonstrate the high effectiveness of both types of LLMs and show the synergistic relationship between them. Notably, we observed a significant relative improvement of up to 19.32% compared to existing state-of-the-art recommendation models. These findings highlight the immense potential of both open- and closed-source of LLMs in enhancing content-based recommendation systems. We will make our code and LLM-generated data available for other researchers to reproduce our results.
研究动机与目标
- 通过更丰富的内容表示推动内容基推荐系统的改进。
- 研究如何对开源 LLM 进行微调以用作内容编码器(DIRE)。
- 研究如何通过提示对封闭源代码 LLM 进行数据增强以提升下游模型(GENRE)。
- 探索在统一框架中同时使用开放与封闭源代码 LLM 的协同效应。
- 在标准基准数据集(MIND、Goodreads)上提供性能提升的实证证据。
提出的方法
- 用开源 LLM 取代或增强内容编码器,并通过注意力层融合表示(DIRE)。
- 使用自然语言模板将多字段内容转换为单一序列,并通过 LLM 嵌入映射。
- 仅对 LLM 的前 n 层进行微调,采用参数高效方法(LoRA),并使用缓存以降低计算量。
- 提示封闭源代码 LLM(GPT-3.5)以生成丰富的数据描述和用户画像(GENRE)。
- 将 LLM 生成的摘要和用户画像通过数据增强和特征丰富化整合到下游推荐中(ALL)。
- 探索链式生成以迭代地完善用户画像与内容合成(Chain-based Generation)。

实验结果
研究问题
- RQ1开放源代码 LLM 作为内容编码器(DIRE)对内容基推荐性能有何影响?
- RQ2封闭源代码 LLM(GENRE)如何通过提示来增丰富培训数据以改进下游模型?
- RQ3开放与封闭源代码 LLM 是否在推荐质量和训练效率上提供互补收益?
- RQ4微调策略(哪些层、LoRA)对开放源代码 LLM 在推荐中的影响如何?
- RQ5在标准数据集上同时使用两种类型的 LLM(ONCE)会带来哪些总体提升?
主要发现
| Dataset | Model | AUC | MRR | N@5 | N@10 |
|---|---|---|---|---|---|
| MIND | Original | 61.75 | 30.60 | 31.35 | 37.85 |
| MIND | DIRE (BERT 12L) | 65.32 | 33.16 | 34.29 | 40.35 |
| MIND | LLaMA 7B (Ours) | 68.34 | 35.80 | 37.60 | 43.48 |
| MIND | LLaMA 13B (Ours) | 68.23 | 35.99 | 37.93 | 43.77 |
| MIND | GENRE (CS) | 63.73 | 31.83 | 32.94 | 39.24 |
| MIND | GENRE (UP) | 62.19 | 30.90 | 31.78 | 38.26 |
| MIND | GENRE (CG) | 62.93 | 30.83 | 32.10 | 38.34 |
| MIND | GENRE (UP → CG) | 63.61 | 31.58 | 32.63 | 39.07 |
| MIND | ALL (Ours) | 63.88 | 32.17 | 33.14 | 39.37 |
| MIND | ONCE (Ours) | 68.62 | 36.50 | 38.31 | 44.05 |
| Goodreads | Original | 66.47 | 75.75 | 58.49 | 82.20 |
| Goodreads | DIRE (BERT 12L) | 70.68 | 78.17 | 62.26 | 83.99 |
| Goodreads | LLaMA 7B (Ours) | 77.01 | 82.74 | 71.09 | 89.39 |
| Goodreads | LLaMA 13B (Ours) | 77.43 | 83.05 | 71.56 | 87.61 |
| Goodreads | GENRE (CS) | 67.68 | 76.41 | 59.64 | 82.69 |
| Goodreads | GENRE (UP) | 68.45 | 76.91 | 60.70 | 83.08 |
| Goodreads | GENRE (CG) | 66.94 | 76.10 | 59.26 | 82.47 |
| Goodreads | GENRE (UP → CG) | 67.98 | 76.78 | 60.56 | 82.96 |
| Goodreads | ALL (Ours) | 68.95 | 77.25 | 61.19 | 83.32 |
| Goodreads | ONCE (Ours) | 77.63 | 83.13 | 71.65 | 87.66 |
- 开源 LLM(如 LLaMA)作为内容编码器提供显著改进,相对于基线在 AUC 与 MRR 上有明显提升。
- 通过提示对封闭源代码 LLM(GPT-3.5)进行数据丰富化也能提升性能,与开源 LLM 结合时获得显著提升。
- 双 LLM 方法 ONCE 在所有数据集上达到最佳性能,持续优于原始及单一 LLM 基线。
- 对开源 LLM 的顶层微调(并结合 LoRA)通常带来更大收益,但效果因数据集与模型规模而异。
- ONCE 在训练阶段加速训练,例如在利用封闭源代码 LLM 信息时能在训练初期达到与较晚阶段相当的性能。
- 数据增强提示与内容编码器微调的结合呈现出开放与封闭源代码 LLM 的互补关系。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。