[論文レビュー] Exploring the Upper Limits of Text-Based Collaborative Filtering Using Large Language Models: Discoveries and Insights
この論文は、テキストベースの協調フィルタリング(TCF)のテキストエンコーダを最大175Bパラメータまでスケールさせ、性能上限、表現の普遍性、転移性、IDベース手法との比較、およびChatGPTベースのプロンプトとの比較を検証する。
Text-based collaborative filtering (TCF) has emerged as the prominent technique for text and news recommendation, employing language models (LMs) as text encoders to represent items. However, the current landscape of TCF models mainly relies on the utilization of relatively small or medium-sized LMs. The potential impact of using larger, more powerful language models (such as these with over 100 billion parameters) as item encoders on recommendation performance remains uncertain. Can we anticipate unprecedented results and discover new insights? To address this question, we undertake a comprehensive series of experiments aimed at exploring the performance limits of the TCF paradigm. Specifically, we progressively augment the scale of item encoders, ranging fromone hundred million to one hundred billion parameters, in order to reveal the scaling limits of the TCF paradigm. Moreover, we investigate whether these exceptionally large LMs have the potential to establish a universal item representation for the recommendation task, thereby revolutionizing the traditional ID paradigm, which is considered a significant obstacle to developing transferable "one model fits all" recommender models. Our study not only demonstrates positive results but also uncovers unexpected negative outcomes, illuminating the current state of the TCF paradigm within the community. These findings will evoke deep reflection and inspire further research on text-based recommender systems.
研究の動機と目的
- TCFの性能が125Mから175Bパラメータへとアイテムエンコーダサイズを増やすにつれてどのように変化するかを、複数データセットで評価する。
- 175B LMがデータセット特異的な再学習なしに、推奨のためのユニバーサルなテキスト表現を提供できるかを評価する。
- TCF(大規模LMを含む)を、warmおよびpopular-item設定の下で標準のIDCFと比較する。
- TCFのクロスドメイン転移性と、代替としてのChatGPTベースのプロンプト推奨の実用性を検討する。
- ファウンデーションレコメンダーモデルの実用的な影響と、エンコーダの再学習 vs 固定の必要性を探る。
提案手法
- 2つのバックボーン(SASRecとDSSM)を用いて、3つのデータセット(MIND, HM, Bili)でTCFを評価する。
- 125Mから175B PARAMsまでの9つのGPTファミリーのエンコーダを、ほとんどの実験で凍結した状態で使用する; また、凍結 vs 再学習(トップレイヤのみ)シナリオも比較する。
- 評価指標としてHR@10とNDCG@10で性能を測定する。
- 同様のバックボーンと学習設定の下でTCFをIDCFと比較する。
- 凍結された175B表現をファインチューニング済みのものと比較して、普遍的な表現の主張を検証する。
実験結果
リサーチクエスチョン
- RQ1Q1: アイテムエンコーダサイズを増やすとTCFの性能は引き続き改善するのか、何百億パラメータのパラメータ領域に ceiling があるのか。
- RQ2Q2: 175B+ LMは、ターゲットデータの再学習なしに推奨のための普遍的で転移可能なテキスト表現を提供するか。
- RQ3Q3: 175B LMを用いたTCFは、特にwarm itemの推奨において、IDCFを一貫して上回ることができるか。
- RQ4Q4: クロスドメイン転移性の観点で、TCFは普遍的なレコメンダーモデルにどれだけ近いのか。
- RQ5Q5: ChatGPTベースのプロンプト推奨(ChatGPT4Rec)は、標準的なTCFを置換できるか。
主な発見
- TCFの性能は、SASRecとDSSMのバックボーンを通じて、より大きなテキストエンコーダで一般的に改善されることが多く、 tested scope 内では175Bでの明確な ceiling は見られない。
- ターゲットデータ上でのファインチューニングや再学習(トップレイヤのみを含む)を行うと、凍結された175B表現を上回ることがあり、推奨タスクにおける普遍的表現は依然として難しい。
- warm-item設定ではSASRecを用いたTCFがIDCFの性能に近づくことがある一方、DSSMベースのTCFはIDCFより劣る傾向があり、バックボーン依存のダイナミクスを示す。
- 大規模LMを用いたTCFはゼロショット転移性が限定的で、事前学習済みの175B表現はデータ特有の適応なしには普遍的なクロスドメイン推奨をまだ達成していない。
- プロンプトベースのChatGPT4Recは標準的なタスクで従来のTCFを下回り、現状の制約の下でスケーラブルなTCFを置換することは現実的ではない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。