QUICK REVIEW

[論文レビュー] VLM2Rec: Resolving Modality Collapse in Vision-Language Model Embedders for Multimodal Sequential Recommendation

Junyoung Kim, Woojoo Kim|arXiv (Cornell University)|Mar 18, 2026

Recommender Systems and Techniques被引用数 0

ひとこと要約

VLM2Recは二つの目的レベル介入を導入する—Weak-modality Penalized Contrastive LearningとCross-modal Relational Topology Regularization—マルチモーダル逐次推奨のファインチューニング時に生じるモダリティ崩壊を解決し、最先端性能と堅牢性を達成。

ABSTRACT

Sequential Recommendation (SR) in multimodal settings typically relies on small frozen pretrained encoders, which limits semantic capacity and prevents Collaborative Filtering (CF) signals from being fully integrated into item representations. Inspired by the recent success of Large Language Models (LLMs) as high-capacity embedders, we investigate the use of Vision-Language Models (VLMs) as CF-aware multimodal encoders for SR. However, we find that standard contrastive supervised fine-tuning (SFT), which adapts VLMs for embedding generation and injects CF signals, can amplify its inherent modality collapse. In this state, optimization is dominated by a single modality while the other degrades, ultimately undermining recommendation accuracy. To address this, we propose VLM2Rec, a VLM embedder-based framework for multimodal sequential recommendation designed to ensure balanced modality utilization. Specifically, we introduce Weak-modality Penalized Contrastive Learning to rectify gradient imbalance during optimization and Cross-Modal Relational Topology Regularization to preserve geometric consistency between modalities. Extensive experiments demonstrate that VLM2Rec consistently outperforms state-of-the-art baselines in both accuracy and robustness across diverse scenarios.

研究の動機と目的

小さな凍結エンコーダから高容量VLMへ移行してマルチモーダル逐次推奨を推進し、アイテム表現内のCF信号の統合を強化する動機づけ。
VLMをSRへ適用する際に生じるモダリティ崩壊パラドックス（SFTは弱モダリティの無視を悪化させる）を特定・分析。
訓練中にモダリティ利用のバランスとクロスモーダル関係のトポロジーの一貫性を保持する目的レベルの介入を提案。

提案手法

全ての相互作用履歴を1つのシーケンス入力として事前学習済みのVision-Language Model (VLM)にエンコードし、CF対応のマルチモーダル表現を取得する。
テキストとビジョンの埋め込みを要素ごとの単純加算で外部融合し、追加の融合パラメータを回避する。
SFTのパラドックスを診断し、標準的なコントラスト学習が強モダリティへ学習を偏らせ、弱モダリティの識別力を悪化させることを明らかにする。
Weak-modality Penalized Contrastive Learning (WPCL)を導入し、ユーザー適応型の識別マージンを用いて弱モダリティのネガティブ分離を動的に強化する。
Cross-modal Relational Topology Regularization (CRTR)を導入し、モダリティ固有の類似度分布に対して双方向KL散逸を用いて近傍/ランキング構造を一致させることでモダリティ間の関係トポロジーを整合させる。
WPCLとCRTRを最終目的関数L = LWPCL + lambda * LCRTRとして組み合わせ、識別性と構造的一貫性を同時に促進する。

実験結果

リサーチクエスチョン

RQ1SRのためにVLMベースの埋め込みをファインチューニングするとモダリティ崩壊が生じ、推奨性能にどのような影響を与えるか？
RQ2目的レベルの介入はモダリティ寄与を均衡させ、クロスモーダル幾何を保持してマルチモーダルSRを改善できるか？
RQ3適応的な個人ユーザーごとのモダリティ信号は、強モダリティを損なうことなく弱モダリティの識別力を高められるか？
RQ4WPCLとCRTRは訓練中の表現幾何と最適化ダイナミクスにどのような影響を及ぼすか？
RQ5提案フレームワークは多様なマルチモーダルSRベンチマークとデータセットで堅牢か？

主な発見

標準的なSFTを用いたSRでは、視覚モダリティがテキストより低性能となるモダリティ格差が拡大する。
最適化ダイナミクスはテキストモダリティに強く適合する傾向を示し、モダリティ崩壊と視覚の貢献低下を招く。
表現幾何の分析では、SFT下で視覚埋め込みが崩壊し、結合空間での識別性が低下することがある。
WPCLとCRTRを組み合わせたVLM2Recは Toys、Beauty、Clothing、Sports の各データセットで一貫して性能を向上させ、SFTや他のベースラインと比較して最先端または競合的な結果を達成。
Per-userの識別マージンにより動的重み付けが可能となり、弱モダリティを強化すべき領域に学習を集中させ、マルチモーダル寄与のバランスを取りやすくする。
CRTRはモダリティ間の関係トポロジーを整合させることで埋め込み空間の安定性を高め、過度なネガティブプッシュによる幾何的歪みを抑制する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。