[論文レビュー] PI2I: A Personalized Item-Based Collaborative Filtering Retrieval Framework
PI2Iは候補プールを緩和したインデクサー段階で拡張し、インタラクティブなスコアリング段階を適用することで、アイテム間フィルタリングを個人化する二段階のリトリーバル Frameworkを導入し、Taobaoでのリトリーバル精度とオンラインパフォーマンスを向上させる。さらに、ベンチマーク用の大規模Taobaoインタラクションデータセットを提供。
Efficiently selecting relevant content from vast candidate pools is a critical challenge in modern recommender systems. Traditional methods, such as item-to-item collaborative filtering (CF) and two-tower models, often fall short in capturing the complex user-item interactions due to uniform truncation strategies and overdue user-item crossing. To address these limitations, we propose Personalized Item-to-Item (PI2I), a novel two-stage retrieval framework that enhances the personalization capabilities of CF. In the first Indexer Building Stage (IBS), we optimize the retrieval pool by relaxing truncation thresholds to maximize Hit Rate, thereby temporarily retaining more items users might be interested in. In the second Personalized Retrieval Stage (PRS), we introduce an interactive scoring model to overcome the limitations of inner product calculations, allowing for richer modeling of intricate user-item interactions. Additionally, we construct negative samples based on the trigger-target (item-to-item) relationship, ensuring consistency between offline training and online inference. Offline experiments on large-scale real-world datasets demonstrate that PI2I outperforms traditional CF methods and rivals Two-Tower models. Deployed in the "Guess You Like" section on Taobao, PI2I achieved a 1.05% increase in online transaction rates. In addition, we have released a large-scale recommendation dataset collected from Taobao, containing 130 million real-world user interactions used in the experiments of this paper. The dataset is publicly available at https://huggingface.co/datasets/PI2I/PI2I, which could serve as a valuable benchmark for the research community.
研究の動機と目的
- 大規模レコメンドシステムにおける従来のアイテムベースCFやツー・タワー型モデルを超えた個人化リトリーバルの必要性を動機づける。
- 最初に候補プールを広げるIBSを用い、次にインタラクティブな個人化スコアリング(PR S)を適用する二段階のPI2Iフレームワークを提案する。
- トリガー-ターゲットのネガティブサンプリング戦略と特化したロス関数を通じてオフライン学習とオンライン推論を整合させる。
- Taobao展開でのオフラインの利得とオンラインの影響を示し、研究利用のための大規模Taobaoインタラクションデータセットを提供する。
提案手法
- IBS: ヒットレートを最大化し、トリガーあたりの候補アイテムをより多く保持するために、しきい値の打ち切りを緩和してアイテム間(i2i)テーブルを構築する(Swingベースのスコアリングを使用)。
- PRS: ターゲットアテンションとクロス特徴相互作用を用いたインタラクティブスコアリングモデルで候補をスコアリング;リトリーバルスコアリングのためのマルチヘッドターゲットアテンションを活用。
- トリガー-ターゲットサンプリング: 次クリックアイテムから positives を用いて訓練する;関連ターゲットからハードネガティブを生成し、未トリガー関連アイテムからイージーネガティブを生成してオフラインとオンラインのプロセスを揃える。
- Loss: ポジティブロジットがネガティブロジットを上回るネガティブログリズムを最適化する(L^p)。
- 推論: ユーザー履歴のトリガーとi2i_table候補を用いた大規模候補空間(Top-K)でオンライン非同期スコアリングを実行。

実験結果
リサーチクエスチョン
- RQ1IBS段階でのしきい値緩和は、計算コストを過度に増加させずヒット率を改善できるか?
- RQ2PRSにおけるインタラクティブスコアリングは、個人化アイテム推奨のための内積ベースリトリーバルを上回るか?
- RQ3トリガー-ターゲットベースのネガティブサンプリングはオフライン学習とオンライン推論の一貫性を改善するか?
- RQ4PI2Iは大規模産業データと公開TaobaoデータセットでCFや主流のツー・タワー型モデルと比較してどうであるか?
主な発見
- PI2Iは大規模実データセットを用いたオフライン実験で従来のCF法を上回り、ツー・タワー型モデルに匹敵する実力を示す。
- Taobaoで、PI2IはGuess You Likeセクションのオンライン取引率を1.05%向上させた。
- PI2Iは高密度データセット(KuaiRec)で強い性能を示し、疎なTaobaoデータセットでも大規模Top-K閾値(例:Hit@4000)で競争力のある結果。
- アブレーション研究はターゲットアテンションとマルチ値トリガーがリトリーバル性能を改善し、トリガーを削除するか単一値トリガーを用いると精度が低下することを示す。
- パラメータ研究はHit Rateの向上と運用効率のバランスを取る最適なIBS切り取りサイズ(T=1250)を特定。
- ケーススタディはトリガー確率の時系列的減衰とユーザー間でのトリガー分布の個人化を示す。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。