[論文レビュー] Large Language Models are Zero-Shot Rankers for Recommender Systems
LLMsは、ユーザー履歴と候補アイテムをプロンプトとして与えることで、推奨システムのゼロショットランカーとして機能できる。ゼロショットランキングは高いが、順序・位置・人気のバイアスを示し、プロンプトとブートストラッピングで緩和できる。候補が複数の生成モデルから来る場合に良好な性能を示す。
Recently, large language models (LLMs) (e.g., GPT-4) have demonstrated impressive general-purpose task-solving abilities, including the potential to approach recommendation tasks. Along this line of research, this work aims to investigate the capacity of LLMs that act as the ranking model for recommender systems. We first formalize the recommendation problem as a conditional ranking task, considering sequential interaction histories as conditions and the items retrieved by other candidate generation models as candidates. To solve the ranking task by LLMs, we carefully design the prompting template and conduct extensive experiments on two widely-used datasets. We show that LLMs have promising zero-shot ranking abilities but (1) struggle to perceive the order of historical interactions, and (2) can be biased by popularity or item positions in the prompts. We demonstrate that these issues can be alleviated using specially designed prompting and bootstrapping strategies. Equipped with these insights, zero-shot LLMs can even challenge conventional recommendation models when ranking candidates are retrieved by multiple candidate generators. The code and processed datasets are available at https://github.com/RUCAIBox/LLMRank.
研究の動機と目的
- 連続的な履歴を条件として、候補アイテムを候補として用い、推奨プロセスを条件付きランキングタスクとして形式的にモデル化する。
- 注意深く設計された prompting テンプレートを通じて、LLMsをゼロショットランカーとして評価する。
- 履歴と候補に対するプロンプト構成がランキング性能に与える影響を体系的に研究する。
- LLMベースのランキングにおけるバイアス(順序、位置、人気)を特定し対処し、緩和戦略を提案する。
- ゼロショットのLLMランカーを従来モデルと比較し、複数の候補生成戦略を横断して評価する。
提案手法
- 履歴の相互作用を条件として、取得された候補を自然言語プロンプト内のアイテムとして表現する。
- LLMsからランキングを引き出すために、指示に従うプロンプトパラダイムを使用する。
- 履歴プロンプティング戦略を3つ評価する:逐次的 prompting、最近性重視 prompting、インコンテキスト学習。
- LLMの出力を部分文字列一致で解析し、ランキングを候補セットに対応づける。
- 候補順序の影響を調査し、ラウンドごとにシャッフルした候補順序でランキングすることでブートストラップを適用する。
- GPT-3.5-turboと温度パラメータ0.2を用い、MovieLens-1MおよびAmazon ReviewsのGamesサブセットでNDCG@Kを用いた実験を行う。

実験結果
リサーチクエスチョン
- RQ1LLMsのゼロショットランキング性能に影響を与える要因は何か?
- RQ2推奨を行う際、LLMsはどのようなデータや知識に依存しているか?
- RQ3プロンプト戦略と候補の順序はLLMベースのランキング性能にどう影響するか?
- RQ4LLMのランキングで生じるバイアス(順序、位置、人気)は何であり、どのように緩和できるか?
主な発見
- LLMsは、最近性を強調するように促すか、インコンテキストデモンストレーションを介していない限り、歴史的相互作用の順序を認識するのが困難であることが多い。
- 最近性を重視したプロンプトとインコンテキスト学習は一般にランキング性能を向上させ、データセットによって最良の結果が異なる。
- LLMsはランキングにおいて位置バイアスと人気バイアスを示す。ブートストラッピングと適切なプロンプトによりこれらの効果を緩和できる。
- ゼロショットLLMランカーは、特定のゼロショットベースラインを上回ることができ、候補セットが複数の生成モデルから来る場合には競争力がある。
- LLMランカーの性能は、モデルサイズが大きいほど向上する傾向があり、その挙動はアイテムの人気、テキスト特徴、ユーザーヒストリの混合を反映している。
- 複数の候補生成器がある実用設定では、LLMは強力なゼロショットランキングを達成できることがあり、訓練済みベースラインに次ぐこともあるが、設定を横断して競争力がある。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。