[논문 리뷰] Tapping the Potential of Large Language Models as Recommender Systems: A Comprehensive Framework and Empirical Analysis
본 논문은 대형 언어 모델(LLM)을 프롬프트를 통해 추천 시스템으로 활용하는 일반 프레임워크인 ProLLM4Rec를 제안하고, 추천 작업을 위한 LLM 및 프롬 prompting 인자들을 체계적으로 분석하는 실험을 수행한다.
Recently, Large Language Models~(LLMs) such as ChatGPT have showcased remarkable abilities in solving general tasks, demonstrating the potential for applications in recommender systems. To assess how effectively LLMs can be used in recommendation tasks, our study primarily focuses on employing LLMs as recommender systems through prompting engineering. We propose a general framework for utilizing LLMs in recommendation tasks, focusing on the capabilities of LLMs as recommenders. To conduct our analysis, we formalize the input of LLMs for recommendation into natural language prompts with two key aspects, and explain how our framework can be generalized to various recommendation scenarios. As for the use of LLMs as recommenders, we analyze the impact of public availability, tuning strategies, model architecture, parameter scale, and context length on recommendation results based on the classification of LLMs. As for prompt engineering, we further analyze the impact of four important components of prompts, \ie task descriptions, user interest modeling, candidate items construction and prompting strategies. In each section, we first define and categorize concepts in line with the existing literature. Then, we propose inspiring research questions followed by detailed experiments on two public datasets, in order to systematically analyze the impact of different factors on performance. Based on our empirical analysis, we finally summarize promising directions to shed lights on future research.
연구 동기 및 목표
- 다양한 시나리오에서 프롬프트 기반으로 LLM을 추천 시스템으로 활용하기 위한 일반 프레임워크(ProLLM4Rec)를 정립한다.
- LLM의 가용성, 조정, 아키텍처, 규모, 컨텍스트 길이와 같은 특성이 추천 성능에 어떤 영향을 미치는지 체계적으로 분석한다.
- 작업 설명, 사용자 관심도 모델링, 후보 항목 구성, 프롬프트 전략 등 프롬 prompting 구성요소를 조사하고 결과에 미치는 영향을 분석한다.
- 권장 응용에 대한 효과적인 프롬 prompting 및 LLM 선택에 대한 실증적 지침을 제공한다.
제안 방법
- 권고를 위한 LLM 입력을 두 가지 핵심 측면인 LLM과 프롬프트로 자연어 프롬프트로 형식화한다.
- LLM의 공개 가용성, 조정 전략, 모델 아키텍처, 매개변수 규모, 컨텍스트 길이 등의 요인을 분류하고 분석한다.
- 프롬트를 작업 설명, 사용자 관심도 모델링, 후보 항목 구성, 프롬 prompting 전략의 네 가지 구성 요소로 분해한다.
- 이 요인들이 추천 성능에 미치는 영향을 평가하기 위해 두 개의 공개 데이터셋에서 실험을 설계하고 수행한다.
- 발견을 실증적 지침과 향후 연구 방향으로 종합한다.

실험 결과
연구 질문
- RQ1다양한 LLM(공개 가용성, 조정, 아키텍처, 규모, 컨텍스트 길이)이 추천 성능에 어떤 영향을 미치는가?
- RQ2작업 설명, 사용자 관심도 모델링, 후보 항목 구성, 프롬 prompting 전략 등 프롬 prompting 구성요소가 LLM 기반 추천에 미치는 영향은 무엇인가?
- RQ3통합 프롬 prompting 프레임워크(ProLLM4Rec)가 포인트-와이즈, 페어-와이즈, 리스트-와이즈 추천 작업 전반에 일반화될 수 있는가?
- RQ4LLM을 추천 시스템으로 사용하는 것의 실용적 트레이드오프와 한계(지연, 메모리, 컨텍스트 길이, 프라이버시)는 무엇인가?
주요 결과
- LLMs은 콜드 스타트 추천 능력을 보여주며 조정 후 일부 전통 모델을 능가할 수 있다.
- 매개변수 규모를 늘리면 일반적으로 추천 능력이 향상되지만, 더 긴 컨텍스트 길이는 성능을 저하시킬 수 있다.
- 전체 매개변수 미세조정은 효율적 매개변수 튜닝보다 효과 면에서 우수한 경향이 있지만 더 많은 학습 시간이 필요하다.
- 프롬 prompting 인사이트는 일부 설정에서 지시어 튜닝과 소수 샷 접근법이 성능을 돕고, 도메인 및 작업별 프롬프트가 이점을 제공함을 보여준다.
- 위치 바이어스 및 도메인 지식의 격차와 같은 특정 문제가 남아 있어 LLM 기반 추천에 영향을 준다.
- 후보 항목 구성 및 그라운딩 전략이 데이터셋 전반에서 결과에 크게 영향을 미친다.

더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.