[論文レビュー] SODA: Semantic-Oriented Distributional Alignment for Generative Recommendation
SODAは多層コードブック上のソフト分布をベイズパーソナライズドランキング目的で整合させることにより、分布レベルの監督を生成リコメンダーシステムに導入し、エンドツーエンドの微分可能な訓練を可能にしてバックボーンの生成リコメンダーを改善します。
Generative recommendation has emerged as a scalable alternative to traditional retrieve-and-rank pipelines by operating in a compact token space. However, existing methods mainly rely on discrete code-level supervision, which leads to information loss and limits the joint optimization between the tokenizer and the generative recommender. In this work, we propose a distribution-level supervision paradigm that leverages probability distributions over multi-layer codebooks as soft and information-rich representations. Building on this idea, we introduce Semantic-Oriented Distributional Alignment (SODA), a plug-and-play contrastive supervision framework based on Bayesian Personalized Ranking, which aligns semantically rich distributions via negative KL divergence while enabling end-to-end differentiable training. Extensive experiments on multiple real-world datasets demonstrate that SODA consistently improves the performance of various generative recommender backbones, validating its effectiveness and generality. Codes will be available upon acceptance.
研究の動機と目的
- 生成的推薦をコードレベルの監督を超えて semantic richness を保持する形で改善することを動機づける。
- Bayesian Personalized Ranking に基づく plug-and-play の分布整合フレームワーク(SODA)を提案する。
- トークナイザーとリコメンダーの交互最適化を通じたエンドツーエンド微分可能な訓練を可能にする。
- 現実世界データセットで分布レベルの監督が生成リコメンダーのバックボーンを一貫して改善することを示す。
提案手法
- アイテムをマルチレイヤーのコードブックへマッピングするトークナイザーとして RQ-VAE を使用する。
- アイテムと履歴を soft quantization を介してコードブック上のソフト分布として表現する。
- 分布レベルの BPR ロスを導入し、分布間の負の KL ダイバージェンスを整合スコアとして用いる。
- ターゲットアイテム、ポジティブ履歴、ネガティブ履歴をバッチ内のコードブック上のソフト分布として h^y, h^+, h^- を構築する。
- 訓練は結合目的関数 L = L_rec + lambda * L_SODA を用い、L_SODA が負の KL ダイバージェンスを介して意味的整合を強制する。
- 交互最適化を採用する:まずトークナイザーを事前訓練し、その後リコメンダーとトークナイザーを交互に訓練する;リコメンダー訓練中に SODA を適用する。
実験結果
リサーチクエスチョン
- RQ1RQ1: SODA を既存の生成リコメンダーのバックボーンに適用した場合の性能はどうなるか。
- RQ2RQ2: 各 SODA コンポーネント(分布監督、ネガティブサンプル、交互最適化)が性能に与える寄与はどの程度か。
- RQ3RQ3: 分布レベルのシグナルはデータセットおよびバックボーンを超えて一貫した向上を提供するか。
主な発見
- SODA はさまざまな生成リコメンダーのバックボーンに適用すると一貫して性能を向上させる。
- 分布レベルの監督は離散コードレベル監督による情報損失を緩和し、より細かな意味的差異を捉える。
- 分布対照学習におけるネガティブサンプリングは性能向上にとって重要である。
- トークナイザーとリコメンダーの交互最適化はトークン化を推薦文脈に適応させるために重要であり、これを除くと結果が劣化する。
- SODA を用いた生成的手法は実データセット上で従来の ID ベースのベースラインを上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。