QUICK REVIEW

[논문 리뷰] Exploring the Upper Limits of Text-Based Collaborative Filtering Using Large Language Models: Discoveries and Insights

Ruyu Li, Wenhao Deng|arXiv (Cornell University)|2023. 05. 19.

Recommender Systems and Techniques인용 수 12

한 줄 요약

이 논문은 텍스트 기반 협업 필터링(TCF)의 텍스트 인코더를 최대 175B 파라미터까지 체계적으로 확대하여 성능 한계, 표현의 보편성, 전이성, ID 기반 방법 및 ChatGPT 기반 프롬프트와의 비교를 탐구한다.

ABSTRACT

Text-based collaborative filtering (TCF) has emerged as the prominent technique for text and news recommendation, employing language models (LMs) as text encoders to represent items. However, the current landscape of TCF models mainly relies on the utilization of relatively small or medium-sized LMs. The potential impact of using larger, more powerful language models (such as these with over 100 billion parameters) as item encoders on recommendation performance remains uncertain. Can we anticipate unprecedented results and discover new insights? To address this question, we undertake a comprehensive series of experiments aimed at exploring the performance limits of the TCF paradigm. Specifically, we progressively augment the scale of item encoders, ranging fromone hundred million to one hundred billion parameters, in order to reveal the scaling limits of the TCF paradigm. Moreover, we investigate whether these exceptionally large LMs have the potential to establish a universal item representation for the recommendation task, thereby revolutionizing the traditional ID paradigm, which is considered a significant obstacle to developing transferable "one model fits all" recommender models. Our study not only demonstrates positive results but also uncovers unexpected negative outcomes, illuminating the current state of the TCF paradigm within the community. These findings will evoke deep reflection and inspire further research on text-based recommender systems.

연구 동기 및 목표

여러 데이터셋에 걸쳐 항목 인코더 크기가 125M에서 175B 파라미터로 증가함에 따라 TCF 성능이 어떻게 변화하는지 평가한다.
175B LM이 데이터셋 특유의 재학습 없이도 추천을 위한 보편적 텍스트 표현을 제공할 수 있는지 평가한다.
대형 LM을 갖춘 TCF를 따뜻 아이템 및 인기 아이템 설정에서 표준 IDCF와 비교한다.
TCF의 도메인 간 전이 가능성과 대안으로서 ChatGPT 기반 프롬프트 추천의 타당성을 검토한다.
기본 추천 모델에 대한 실용적 시사점과 인코더를 재학습해야 하는지 동결해야 하는지에 대한 필요성을 탐구한다.

제안 방법

두 백본(SASRec 및 DSSM)으로 세 데이터셋(MIND, HM, Bili)에서 TCF를 평가한다.
대부분의 실험에서 125M에서 175B PARAM까지의 9개의 GPT-계열 인코더를 고정(frozen) 상태로 사용합니다; 또한 고정 대 재학습(상위 계층만 재학습) 시나리오를 비교합니다.
평가 지표로 HR@10 및 NDCG@10으로 성능을 측정한다.
유사한 백본과 학습 설정에서 TCF를 IDCF와 비교한다.
동결된 175B 표현과 미세조정된 표현을 대조하여 보편적 표현 주장을 조사한다.

실험 결과

연구 질문

RQ1Q1: 항목 인코더 크기를 늘려도 TCF 성능이 계속 향상되며, 수백 억~ 수백 B 파라미터에서 한계가 있는가?
RQ2Q2: 175B 이상 LM이 대상 데이터에서 재학습 없이도 추천에 대한 보편적이고 전이 가능한 텍스트 표현을 제공하는가?
RQ3Q3: 175B LM을 갖춘 TCF가 특히 워름 아이템 추천에서 IDCF를 지속적으로 능가할 수 있는가?
RQ4Q4: 도메인 간 전이성 측면에서 TCF가 보편적 추천 모델에 얼마나 근접해 있는가?
RQ5Q5: 일반적인 설정에서 ChatGPT 기반 프롬프트 추천(ChatGPT4Rec)이 전통적인 TCF를 대체할 수 있는가?

주요 결과

SASRec 및 DSSM 백본 전반에 걸쳐 더 큰 텍스트 인코더로 TCF 성능이 일반적으로 향상되므로, 테스트 범위 내에서 175B에 명확한 한계가 보이지 않는다.
대상 데이터에서 최상위 계층이라도 미세조정이나 재학습이 고정된 175B 표현보다 더 나은 성능을 보일 수 있어, 추천 작업에 대한 보편적 표현은 여전히 달성하기 어렵다는 것을 시사한다.
웜 아이템 설정에서 SASRec를 이용한 TCF는 IDCF 성능에 근접할 수 있는 반면, DSSM 기반 TCF는 IDCF보다 약하므로 백본에 따른 차이를 강조한다.
대형 LM을 활용한 TCF는 제로샷 전이 가능성이 제한적이며, 사전 학습된 175B 표현은 데이터 특화 적응 없이는 보편적 도메인 간 추천을 아직 달성하지 못한다.
프롬프트 기반 ChatGPT4Rec은 표준 작업에서 전통적인 TCF보다 성능이 떨어지며 현재의 한계로 인해 확장 가능한 TCF를 대체할 수 없다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.