[論文レビュー] Tapping the Potential of Large Language Models as Recommender Systems: A Comprehensive Framework and Empirical Analysis
本論文は ProLLM4Rec を提案しており、大規模言語モデル(LLMs)をレコメンダーシステムとして用いる一般的なフレームワークを提示し、推奨タスクにおける LLMs と prompting の要因を体系的に分析する実験を行う。
Recently, Large Language Models~(LLMs) such as ChatGPT have showcased remarkable abilities in solving general tasks, demonstrating the potential for applications in recommender systems. To assess how effectively LLMs can be used in recommendation tasks, our study primarily focuses on employing LLMs as recommender systems through prompting engineering. We propose a general framework for utilizing LLMs in recommendation tasks, focusing on the capabilities of LLMs as recommenders. To conduct our analysis, we formalize the input of LLMs for recommendation into natural language prompts with two key aspects, and explain how our framework can be generalized to various recommendation scenarios. As for the use of LLMs as recommenders, we analyze the impact of public availability, tuning strategies, model architecture, parameter scale, and context length on recommendation results based on the classification of LLMs. As for prompt engineering, we further analyze the impact of four important components of prompts, \ie task descriptions, user interest modeling, candidate items construction and prompting strategies. In each section, we first define and categorize concepts in line with the existing literature. Then, we propose inspiring research questions followed by detailed experiments on two public datasets, in order to systematically analyze the impact of different factors on performance. Based on our empirical analysis, we finally summarize promising directions to shed lights on future research.
研究の動機と目的
- 本稿は、さまざまなシナリオにおける prompting ベースの LLM のレコメンダーシステムとしての活用を formalize する一般的なフレームワーク(ProLLM4Rec)を確立する。
- LLM の特性(入手性、チューニング、アーキテクチャ、スケール、文脈長)が推奨性能に与える影響を体系的に分析する。
- タスク説明、ユーザー関心のモデリング、候補アイテム構築、 prompting 戦略という prompting コンポーネントを調査し、それらが結果に与える影響を評価する。
- レコメンダーアプリケーションにおける効果的な prompting と LLM の選択に関する実証的な指針を提供する。
提案手法
- レコメンデーションへの入力を自然言語プロンプトとして formalize し、2 つの重要な側面:LLMs と prompts。
- LLM の公開性、チューニング戦略、モデルアーキテクチャ、パラメータスケール、文脈長などの要因を分類・分析する。
- prompting を4つの構成要素に分解する:タスク説明、ユーザー関心のモデリング、候補アイテムの構築、 prompting 戦略。
- これらの要因が推奨性能に与える影響を評価するため、2つの公開データセットを用いた実験を設計・実施する。
- 知見を経験的な指針と今後の研究の方向性へ統合する。

実験結果
リサーチクエスチョン
- RQ1異なる LLM(公開性、チューニング、アーキテクチャ、スケール、文脈長)は推奨性能にどのような影響を与えるか?
- RQ2 prompting コンポーネント(タスク説明、ユーザー関心のモデリング、候補アイテムの構築、 prompting 戦略)が LLM ベースの推奨に与える影響は何か?
- RQ3 unified prompting フレームワーク(ProLLM4Rec)は、ポイントワイズ、ペアワイズ、リストワイズの推奨タスク全般に一般化できるか?
- RQ4LLMs をレコメンダーシステムとして使用する際の実務的なトレードオフと制約(遅延、メモリ、文脈長、プライバシー)は何か?
主な発見
- LLMs はコールドスタートの推奨能力を示し、チューニング後には従来のモデルのいくつかを上回ることがある。
- パラメータ規模を増やすと一般的に推奨能力が向上する一方、長い文脈長は性能を低下させることがある。
- 全パラメータのファイントレーニングは、パラメータ効率のチューニングより効果的である傾向だが、より多くの学習時間を必要とする。
- prompting の洞察として、指示調整と Few-shot アプローチが一部の設定で性能向上に寄与し、ドメイン・タスク特化のプロンプトが利点をもたらす。
- 位置バイアスやドメイン知識の不足といった特定の問題が、LLM ベースの推奨に影響を与え続ける。
- 候補アイテムの構築と grounding 戦略は、データセット全体で結果に大きく影響する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。