Skip to main content
QUICK REVIEW

[论文解读] SODA: Semantic-Oriented Distributional Alignment for Generative Recommendation

Ziqi Xue, Dingxian Wang|arXiv (Cornell University)|Feb 28, 2026
Recommender Systems and Techniques被引用 0
一句话总结

SODA 通过在多层码本上对软分布进行对齐并结合贝叶斯个性化排序目标,为生成式推荐系统引入分布层级监督,使端到端可微训练成为可能,并提升骨干生成式推荐器的性能。

ABSTRACT

Generative recommendation has emerged as a scalable alternative to traditional retrieve-and-rank pipelines by operating in a compact token space. However, existing methods mainly rely on discrete code-level supervision, which leads to information loss and limits the joint optimization between the tokenizer and the generative recommender. In this work, we propose a distribution-level supervision paradigm that leverages probability distributions over multi-layer codebooks as soft and information-rich representations. Building on this idea, we introduce Semantic-Oriented Distributional Alignment (SODA), a plug-and-play contrastive supervision framework based on Bayesian Personalized Ranking, which aligns semantically rich distributions via negative KL divergence while enabling end-to-end differentiable training. Extensive experiments on multiple real-world datasets demonstrate that SODA consistently improves the performance of various generative recommender backbones, validating its effectiveness and generality. Codes will be available upon acceptance.

研究动机与目标

  • 推动在保持语义丰富性的前提下,改进超越仅代码级监督的生成式推荐。
  • 提出一个基于贝叶斯个性化排序(Bayesian Personalized Ranking)的即插即用分布对齐框架(SODA)。
  • 实现端到端可微训练,采用 tokenizer 与 recommender 之间交替优化。
  • 证明分布级监督在真实数据集上持续提升生成式推荐骨干模型的性能。

提出的方法

  • 使用 RQ-VAE 作为分词器,将项目映射到多层码本。
  • 通过软量化将项目和历史表示为对码本的软分布。
  • 引入一个分布级 BPR 损失,使用分布之间的负 KL 散度作为匹配分数。
  • 在一个批次中,将目标项目、正历史、负历史构造成对码本的软分布 h^y、h^+、h^-。
  • 训练目标函数为 L = L_rec + lambda * L_SODA,其中 L_SODA 通过负 KL 散度实现语义对齐。
  • 采用交替优化:先预训练分词器,然后交替训练推荐器与分词器;在推荐器训练时应用 SODA。

实验结果

研究问题

  • RQ1RQ1: 将 SODA 应用于现有生成式推荐骨干时的表现如何?
  • RQ2RQ2: SODA 组件(分布监督、负样本、交替优化)对性能的贡献是多少?
  • RQ3RQ3: 分布级信号是否在不同数据集与骨干上带来一致的提升?

主要发现

  • SODA 在将多种生成式推荐骨干应用到时均能持续提升性能。
  • 分布级监督缓解了离散代码级监督带来的信息损失,能捕捉更细致的语义差异。
  • 分布对比学习目标中的负采样对性能提升至关重要。
  • 交替优化(tokenizer–recommender)对于将分词适应到推荐场景很重要,去除后结果下降。
  • 带有 SODA 的生成方法在真实数据集上优于基于 ID 的传统基线。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。