[论文解读] Tapping the Potential of Large Language Models as Recommender Systems: A Comprehensive Framework and Empirical Analysis
本论文提出 ProLLM4Rec,一种通过提示使用大语言模型(LLMs)作为推荐系统的通用框架,并进行了系统性实验以分析用于推荐任务的 LLMs 与提示因素。
Recently, Large Language Models~(LLMs) such as ChatGPT have showcased remarkable abilities in solving general tasks, demonstrating the potential for applications in recommender systems. To assess how effectively LLMs can be used in recommendation tasks, our study primarily focuses on employing LLMs as recommender systems through prompting engineering. We propose a general framework for utilizing LLMs in recommendation tasks, focusing on the capabilities of LLMs as recommenders. To conduct our analysis, we formalize the input of LLMs for recommendation into natural language prompts with two key aspects, and explain how our framework can be generalized to various recommendation scenarios. As for the use of LLMs as recommenders, we analyze the impact of public availability, tuning strategies, model architecture, parameter scale, and context length on recommendation results based on the classification of LLMs. As for prompt engineering, we further analyze the impact of four important components of prompts, \ie task descriptions, user interest modeling, candidate items construction and prompting strategies. In each section, we first define and categorize concepts in line with the existing literature. Then, we propose inspiring research questions followed by detailed experiments on two public datasets, in order to systematically analyze the impact of different factors on performance. Based on our empirical analysis, we finally summarize promising directions to shed lights on future research.
研究动机与目标
- 建立一个通用框架(ProLLM4Rec),在各种场景中将基于提示使用LLMs作为推荐系统进行形式化描述。
- 系统性分析 LLM 的特性(可用性、微调、架构、尺度、上下文长度)如何影响推荐性能。
- 研究提示组件(任务描述、用户兴趣建模、候选项构建、提示策略)及其对结果的影响。
- 为推荐应用提供有效提示和LLM选择的经验性指导。
提出的方法
- 将用于推荐的输入形式化为自然语言提示,包含两个关键方面:LLMs 与 prompts。
- 分类并分析因素,如 LLM 公共可用性、微调策略、模型架构、参数规模和上下文长度。
- 将提示分解为四个组成部分:任务描述、用户兴趣建模、候选项构建、提示策略。
- 设计并在两个公开数据集上进行实验,评估这些因素如何影响推荐性能。
- 将发现综合成经验性指南和未来研究方向。

实验结果
研究问题
- RQ1不同的 LLMs(公共可用性、微调、架构、规模、上下文长度)如何影响推荐性能?
- RQ2提示组件(任务描述、用户兴趣建模、候选项构建、提示策略)对基于 LLM 的推荐有何影响?
- RQ3能否用统一的提示框架(ProLLM4Rec)在点对点、成对、列表式推荐任务中实现泛化?
- RQ4使用 LLM 作为推荐系统在实践中的权衡与限制有哪些(延迟、内存、上下文长度和隐私)?
主要发现
- LLMs 具备冷启动推荐能力,在经过微调后甚至可以超越一些传统模型。
- 参数规模的增加通常会提升推荐能力,而更长的上下文长度可能降低性能。
- 全参数微调在效果上往往优于参数高效微调,但需要更长的训练时间。
- 提示方面的洞见表明,指令微调和少样本方法在某些设置下可以提升性能,领域和任务特定的提示也有益处。
- 仍存在某些问题,如位置偏置和领域知识的缺口,影响基于 LLM 的推荐。
- 候选项构建和落地(对齐)策略在跨数据集显著影响结果。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。