[论文解读] Exploring the Upper Limits of Text-Based Collaborative Filtering Using Large Language Models: Discoveries and Insights
论文在文本协同过滤(TCF)中系统性地将文本编码器扩展到175B参数,以探查性能上限、表征的普遍性、可转移性,以及与基于ID的方法和基于ChatGPT的提示的比较。
Text-based collaborative filtering (TCF) has emerged as the prominent technique for text and news recommendation, employing language models (LMs) as text encoders to represent items. However, the current landscape of TCF models mainly relies on the utilization of relatively small or medium-sized LMs. The potential impact of using larger, more powerful language models (such as these with over 100 billion parameters) as item encoders on recommendation performance remains uncertain. Can we anticipate unprecedented results and discover new insights? To address this question, we undertake a comprehensive series of experiments aimed at exploring the performance limits of the TCF paradigm. Specifically, we progressively augment the scale of item encoders, ranging fromone hundred million to one hundred billion parameters, in order to reveal the scaling limits of the TCF paradigm. Moreover, we investigate whether these exceptionally large LMs have the potential to establish a universal item representation for the recommendation task, thereby revolutionizing the traditional ID paradigm, which is considered a significant obstacle to developing transferable "one model fits all" recommender models. Our study not only demonstrates positive results but also uncovers unexpected negative outcomes, illuminating the current state of the TCF paradigm within the community. These findings will evoke deep reflection and inspire further research on text-based recommender systems.
研究动机与目标
- 评估在多个数据集上,随着物品编码器大小从1.25亿到1750亿参数的增加,TCF的性能如何变化。
- 评估是否175B语言模型能在不进行数据集特定再训练的情况下,为推荐提供通用文本表征。
- 在温启动和热门物品设置下,将使用大语言模型的TCF与标准IDCF进行比较。
- 检查TCF的跨领域转移性以及基于ChatGPT的提示推荐作为替代的可行性。
- 探讨基础推荐模型的实际意义,以及需要对编码器进行再训练还是冻结的取舍。
提出的方法
- 使用两种骨干网络SASRec和DSSM,在三个数据集(MIND、HM、Bili)上评估TCF。
- 使用9个GPT家族编码器,参数从125M到175B,在大多数实验中为冻结;并比较冻结与再训练(仅顶层)的情景。
- 使用HR@10和NDCG@10作为评估指标。
- 在相似骨干和训练设置下,将TCF与IDCF对比。
- 通过将冻结的175B表示与微调的表示进行对比,检验 universality 的说法。
实验结果
研究问题
- RQ1Q1:TCF的性能是否会随着物品编码器规模的增大而继续提高,参数达到数千亿级别时是否存在上限?
- RQ2Q2:175B及以上的语言模型是否能在不对目标数据进行再训练的情况下,提供通用且可迁移的文本表征用于推荐?
- RQ3Q3:在热物品推荐场景下,使用175B语言模型的TCF是否能稳定地超越IDCF?
- RQ4Q4:在跨领域转移性方面,TCF与通用推荐模型的接近程度如何?
- RQ5Q5:基于ChatGPT的提示推荐(ChatGPT4Rec)是否能够在典型设置中替代传统的TCF?
主要发现
- TCF的性能通常随着更大的文本编码器在SASRec和DSSM骨干上提升,表明在所测试范围内,175B没有明显的上限。
- 在目标数据上微调甚至重新训练顶层就能超越冻结的175B表示,表明通用表征在推荐任务中仍然难以实现。
- 在热物品设置下,SASRec的TCF可以接近IDCF的性能,而基于DSSM的TCF仍弱于IDCF,凸显骨干网络的动态影响。
- 使用大语言模型的TCF在零-shot转移性方面有限;预训练的175B表示在不进行数据特定适应的情况下尚未实现通用跨域推荐。
- 基于提示的ChatGPT4Rec在标准任务上表现不如传统的TCF,且在当前限制下无法替代可扩展的TCF。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。