[論文レビュー] LlamaRec: Two-Stage Recommendation using Large Language Models for Ranking
LlamaRec は、トップ-k 候補を効率的にランキングするために、速い検索段と LLM ベースのランキング段を動 ver balizer を用いて組み合わせ、生成ベースのベースラインより性能が優れており推論も速い。
Recently, large language models (LLMs) have exhibited significant progress in language understanding and generation. By leveraging textual features, customized LLMs are also applied for recommendation and demonstrate improvements across diverse recommendation scenarios. Yet the majority of existing methods perform training-free recommendation that heavily relies on pretrained knowledge (e.g., movie recommendation). In addition, inference on LLMs is slow due to autoregressive generation, rendering existing methods less effective for real-time recommendation. As such, we propose a two-stage framework using large language models for ranking-based recommendation (LlamaRec). In particular, we use small-scale sequential recommenders to retrieve candidates based on the user interaction history. Then, both history and retrieved items are fed to the LLM in text via a carefully designed prompt template. Instead of generating next-item titles, we adopt a verbalizer-based approach that transforms output logits into probability distributions over the candidate items. Therefore, the proposed LlamaRec can efficiently rank items without generating long text. To validate the effectiveness of the proposed framework, we compare against state-of-the-art baseline methods on benchmark datasets. Our experimental results demonstrate the performance of LlamaRec, which consistently achieves superior performance in both recommendation performance and efficiency.
研究の動機と目的
- リアルタイム推論の制約に対処しつつ、推奨のためのLLMsの活用を促進する。
- 検索とLLMベースのランキングを組み合わせた二段階のフレームワークを提案する。
- verbalizer が自己回帰生成を伴わない高速で単一パスのスコアリングを可能にすることを示す。
提案手法
- LRURec を検索モジュールとして使用し、ユーザ履歴から top-k の候補アイテムを生成する。
- 履歴と候補タイトルを含む指示テンプレートを用いて、Llama 2 ランカー用のテキストベースの入力を構築する。
- verbalizer を適用して、候補インデックス文字に対する LLM ヘッドのロジットを長文の生成を行わずにランキングスコアへマッピングする。
- QLoRA量子化を用いて、プロンプトの応答部に対する指示チューニングで Llama 2 ランカーをファインチューニングする。
- ラベルトークン(インデックス文字と EOS)に対する次トークン風の損失を用いて、真のアイテムスコアを最大化するように訓練する。
- 入力長と候補をそれぞれトップ-20 に制限し、効率のため履歴は最大で 20 件とする。
実験結果
リサーチクエスチョン
- RQ1LLMベースの推奨において、二段階フレームワークは検索とランキングの両方の性能を向上させることができるか?
- RQ2verbalizerベースのランキング手法は、LLMs の生成ベースのランキングより効率性の向上をもたらすか?
- RQ3標準的な逐次推奨ベンチマークにおいて、LlamaRec は最先端のベースラインとどのように比較されるか?
主な発見
- LlamaRec は、MRR、NDCG、Recall などの指標で複数のデータセットにおいてベースライン手法を上回る。
- 最大の改善は ML-100k で、MRR@5、NDCG@5、Recall@5 の顕著な向上を示す。
- 有効な検索サブセットでは、LlamaRec は全評価に比べて絶対的な改善が大きく、真に関連するアイテムのランキングが効果的であることを示している。
- Beauty における他の LLM ベースのベースラインと比較して、LlamaRec は顕著な性能向上を達成(指標全体で平均約 14.31% 程度)。
- verbalizer アプローチは推論効率を劇的に改善し、すべての候補をスコアリングするための単一のフォワードパスを可能にする一方、生成ベースの手法は長いデコード時間を要する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。