QUICK REVIEW

[논문 리뷰] VLM2Rec: Resolving Modality Collapse in Vision-Language Model Embedders for Multimodal Sequential Recommendation

Junyoung Kim, Woojoo Kim|arXiv (Cornell University)|2026. 03. 18.

Recommender Systems and Techniques인용 수 0

한 줄 요약

VLM2Rec는 두 가지 목표 수준 개입—Weak-modality Penalized Contrastive Learning과 Cross-modal Relational Topology Regularization—을 도입하여 멀티모달 시퀀스 추천에서 모달리티 붕괴를 해결하고, 최첨단 성능 및 견고함을 달성합니다.

ABSTRACT

Sequential Recommendation (SR) in multimodal settings typically relies on small frozen pretrained encoders, which limits semantic capacity and prevents Collaborative Filtering (CF) signals from being fully integrated into item representations. Inspired by the recent success of Large Language Models (LLMs) as high-capacity embedders, we investigate the use of Vision-Language Models (VLMs) as CF-aware multimodal encoders for SR. However, we find that standard contrastive supervised fine-tuning (SFT), which adapts VLMs for embedding generation and injects CF signals, can amplify its inherent modality collapse. In this state, optimization is dominated by a single modality while the other degrades, ultimately undermining recommendation accuracy. To address this, we propose VLM2Rec, a VLM embedder-based framework for multimodal sequential recommendation designed to ensure balanced modality utilization. Specifically, we introduce Weak-modality Penalized Contrastive Learning to rectify gradient imbalance during optimization and Cross-Modal Relational Topology Regularization to preserve geometric consistency between modalities. Extensive experiments demonstrate that VLM2Rec consistently outperforms state-of-the-art baselines in both accuracy and robustness across diverse scenarios.

연구 동기 및 목표

작은 동결 인코더에서 고용량 VLM으로의 멀티모달 시퀀스 추천으로의 전환을 동기화하여 아이템 표현 내에서 CF 시그널을 더 잘 통합하려는 목적.
SR에 VLM을 적용할 때 모달리티 붕괴 역설(SFT가 약한 모달리티 무시를 악화시키는 현상)을 식별하고 분석.
훈련 중 모달리티 활용의 균형을 맞추고 교차 모달 관계 위상을 보존하는 목표 수준 개입을 제안합니다.

제안 방법

전체 상호작용 기록을 사전 학습된 Vision-Language Model(VLM)에 단일 시퀀스 입력으로 인코딩하여 CF 의식적 다중 모달 표현을 얻습니다.
텍스트와 비전 임베딩을 서로 다른 추가 융합 매개변수 없이 간단한 요소별 합으로 외부 융합을 사용합니다.
전통적인 대조적 미세조정이 강한 모달리티로 학습을 편향시키고 약한 모달리티의 판별력을 악화시키는 SFT의 역설을 진단합니다.
약한 모달리티 Penalized Contrastive Learning(WPCL)을 도입하여 사용자 적응형 판별 여백을 사용해 약한 모달리티의 음수 분리를 동적으로 강화합니다.
Cross-modal Relational Topology Regularization(CRTR)을 도입하여 모달리티별 유사도 분포에 대한 양방향 KL 발산으로 관계 토폴로지를 맞춤으로써 모달리티 간의 관계 토폴로지를 정렬합니다.
최종 목표 L = LWPCL + lambda * LCRTR에서 WPCL과 CRTR를 결합하여 판별성과 구조적 일관성을 함께 촉진합니다.

실험 결과

연구 질문

RQ1SR에 대해 VLM 기반 임베더를 미세조정하면 모달리티 붕괴가 발생하며 이는 추천 성능에 어떤 영향을 미치는가?
RQ2목표 수준 개입이 모달리티 기여를 균형 있게 조정하고 교차 모달 기하를 보존하여 멀티모달 SR을 개선할 수 있는가?
RQ3적응적 per-user 모달리티 시그널이 강한 모달리티를 해치지 않으면서 약한 모달리티의 판별력을 향상시키는가?
RQ4WPCL과 CRTR가 훈련 중 표현 기하학 및 최적화 다이나믹에 어떤 영향을 미치는가?
RQ5제안된 프레임워크가 다양한 멀티모달 SR 벤치마크 및 데이터세트에서 견고한가?

주요 결과

표준 SFT를 이용한 VLM 기반 SR은 모달리티 격차가 확대되어 시각 모달리티가 텍스트에 비해 약하게 성능을 보이는 현상이 나타난다.
최적화 다이나믹은 총 기울기 업데이트가 텍스트 모달리티에 강하게 정렬되어 모달리티 붕괴 및 비전 기여 저하로 이어진다.
표현 기하학 분석에서 SFT 하에서 비전 임베딩이 붕괴되어 일부 데이터셋에서 융합 공간의 분리성이 감소한다.
WPCL과 CRTR를 도입한 VLM2Rec는 Toys, Beauty, Clothing, Sports 데이터셋에서 일관되게 성능을 향상시키며 SFT 및 기타 기준선에 비해 최첨단 또는 경쟁력 있는 결과를 달성한다.
각 사용자의 판별 여백이 다이나믹하게 가중치를 부여하여 약한 모달리티의 학습 강화를 촉진하고 멀티모달 기여의 균형을 돕는다.
CRTR은 모달리티 간 관계 토폴로지를 정렬하여 임베딩 공간의 기하학적 왜곡을 방지하고 학습 안정성을 높인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.