QUICK REVIEW

[论文解读] VLM2Rec: Resolving Modality Collapse in Vision-Language Model Embedders for Multimodal Sequential Recommendation

Junyoung Kim, Woojoo Kim|arXiv (Cornell University)|Mar 18, 2026

Recommender Systems and Techniques被引用 0

一句话总结

VLM2Rec 引入了两个目标层面的干预——弱模态惩罚性对比学习和跨模态关系拓扑正则化——以解决在微调视觉-语言模型以进行多模态序列推荐时的模态坍缩问题，达到前沿性能和鲁棒性。

ABSTRACT

Sequential Recommendation (SR) in multimodal settings typically relies on small frozen pretrained encoders, which limits semantic capacity and prevents Collaborative Filtering (CF) signals from being fully integrated into item representations. Inspired by the recent success of Large Language Models (LLMs) as high-capacity embedders, we investigate the use of Vision-Language Models (VLMs) as CF-aware multimodal encoders for SR. However, we find that standard contrastive supervised fine-tuning (SFT), which adapts VLMs for embedding generation and injects CF signals, can amplify its inherent modality collapse. In this state, optimization is dominated by a single modality while the other degrades, ultimately undermining recommendation accuracy. To address this, we propose VLM2Rec, a VLM embedder-based framework for multimodal sequential recommendation designed to ensure balanced modality utilization. Specifically, we introduce Weak-modality Penalized Contrastive Learning to rectify gradient imbalance during optimization and Cross-Modal Relational Topology Regularization to preserve geometric consistency between modalities. Extensive experiments demonstrate that VLM2Rec consistently outperforms state-of-the-art baselines in both accuracy and robustness across diverse scenarios.

研究动机与目标

将小型冻结编码器向高容量 VLM 转变，以更好地在物品表示中整合 CF 信号以用于多模态序列推荐的动机。
识别并分析在将 VLM 适配用于 SR 时的模态坍缩悖论（SFT 加剧弱模态的忽视）。
提出目标层面的干预，在训练过程中平衡模态利用并保留跨模态关系拓扑结构。

提出的方法

将整个交互历史编码为一个单一序列输入，送入预训练的 Vision-Language Model (VLM) 以获取具 CF-awareness 的多模态表示。
使用外部融合，以简单的逐元素求和来结合文本与视觉嵌入，避免额外的融合参数。
诊断 SFT 的悖论，即标准对比微调使学习偏向强模态，削弱弱模态的判别力。
引入 Weak-modality Penalized Contrastive Learning (WPCL)，采用用户自适应的判别边界动态增强弱模态的负样本分离。
引入 Cross-modal Relational Topology Regularization (CRTR)，通过在模态特定的相似度分布上使用双向 KL 散度，将模态间的关系拓扑对齐。
在最终目标 L = LWPCL + lambda * LCRTR 中组合 WPCL 与 CRTR，以共同促使判别性与结构一致性。

实验结果

研究问题

RQ1微调基于 VLM 的 SR 嵌入器是否会引入模态坍缩？这对推荐性能有何影响？
RQ2目标层面的干预是否能在保持跨模态几何的同时平衡模态贡献，以提升多模态 SR？
RQ3自适应的逐用户模态信号是否在不损害强模态的前提下提升较弱模态的判别能力？
RQ4WPCL 与 CRTR 在训练过程中的表示几何和优化动力学有何影响？
RQ5所提框架在多样化的多模态 SR 基准和数据集上是否鲁棒？

主要发现

使用标准 SFT 的基于 VLM 的 SR 显示模态差距扩大，弱视觉模态相对于文本在微调后表现更差。
优化动力学显示总梯度更新与文本模态高度对齐，导致模态坍缩和视觉贡献下降。
表征几何分析表明，在 SFT 下视觉嵌入会坍缩，使在某些数据集的融合空间中可分离性下降。
VLM2Rec 结合 WPCL 和 CRTR 在 Toys、Beauty、Clothing、Sports 数据集上持续提升性能，达到与 SFT 及其他基线相比的前沿或有竞争力的结果。
按用户的判别边距实现动态加权，使学习聚焦于在需要时加强弱模态，有助于平衡多模态贡献。
CRTR 通过对齐跨模态的关系拓扑稳定嵌入空间，防止因强烈的负样本推送而造成的几何变形。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。