Skip to main content
QUICK REVIEW

[논문 리뷰] Closing the Modality Gap Aligns Group-Wise Semantics

Eleonora Grassucci, Giordano Cicchetti|arXiv (Cornell University)|2026. 01. 26.
Domain Adaptation and Few-Shot Learning인용 수 0
한 줄 요약

이 논문은 다중 모달 대비 학습에서 모달리티 간 격차를 해소하면 인스턴스 단위 검색에 해를 끼치지 않으면서 클러스터링과 같은 그룹 단위 작업이 개선됨을 보인다. Align True Pairs와 Centroid Uniformity 손실을 도입함으로써, 이 방법은 모달 간 거리를 줄이고 바이모달 및 트리모달 데이터에서 의미론적 군집을 더 촘촘하게 만든다.

ABSTRACT

In multimodal learning, CLIP has been recognized as the extit{de facto} method for learning a shared latent space across multiple modalities, placing similar representations close to each other and moving them away from dissimilar ones. Although CLIP-based losses effectively align modalities at the semantic level, the resulting latent spaces often remain only partially shared, revealing a structural mismatch known as the modality gap. While the necessity of addressing this phenomenon remains debated, particularly given its limited impact on instance-wise tasks (e.g., retrieval), we prove that its influence is instead strongly pronounced in group-level tasks (e.g., clustering). To support this claim, we introduce a novel method designed to consistently reduce this discrepancy in two-modal settings, with a straightforward extension to the general $n$-modal case. Through our extensive evaluation, we demonstrate our novel insight: while reducing the gap provides only marginal or inconsistent improvements in traditional instance-wise tasks, it significantly enhances group-wise tasks. These findings may reshape our understanding of the modality gap, highlighting its key role in improving performance on tasks requiring semantic grouping.

연구 동기 및 목표

  • 검색 작업을 넘어 다중 모달 모델의 모달리티 격차를 동기 부여하고 정량화하려는 목적.
  • 격차 감소가 클러스터링과 같은 그룹 단위 의미를 향상시킨다는 것을 보여준다.
  • 아키텍처 변경 없이 두 개 이상의 모달리티 간의 격차를 해소하는 간단하고 확장 가능한 목적 함수를 제안한다.
  • 인스턴스 수준 성능을 유지하면서 바이모달 및 트리모달 벤치마크에서 실증적 향상을 보여준다.

제안 방법

  • InfoNCE 기반 대조 학습을 형식화하고 중심 거리와 진실 쌍 코사인 지표를 사용해 모달리티 격차를 정의한다.
  • 모달리티 간 거리를 공통 고정점(anchor)으로 최소화하기 위해 Align True Pairs(L_ATP)를 도입한다.
  • 모달 중심의 균일한 분포를 촉진하고 붕괴를 피하기 위해 Centroid Uniformity(L_CU)를 도입한다.
  • L_gap = L_ATP + L_CU를 표준 양방향 대조 손실과 결합하여 L_CL_gap를 얻는다.
  • 아키텍처를 바꾸지 않고 바이모달에서 다중 모달(두 개 이상 모달)로 확장한다.
  • L_CL_gap가 모달리티 격차를 거의 제로로 밀어내면서 진실 쌍의 정렬을 유지하고 그룹 단위 구조를 향상시키는 것을 보여준다.
Figure 1: Reducing the gap consistently improves clustering metrics, while leaving unaffected retrieval ones. On the contrary, increasing the gap downgrades the V-Measure, bringing no improvements in R@1. In CLIP, the gap results in very poor clustering performance due to the latent space fragmentat
Figure 1: Reducing the gap consistently improves clustering metrics, while leaving unaffected retrieval ones. On the contrary, increasing the gap downgrades the V-Measure, bringing no improvements in R@1. In CLIP, the gap results in very poor clustering performance due to the latent space fragmentat

실험 결과

연구 질문

  • RQ1다중 모달에 걸쳐 모달리티 격차를 줄이는 것이 검색 지표보다 클러스터 중심 지표(예: V-Measure)를 더 개선하는가?
  • RQ2진실 쌍 정렬과 중심점 균일성을 결합한 간단한 목표가 인스턴스 수준 성능을 해치지 않으면서 격차를 해소할 수 있는가?
  • RQ3제안된 격차 해소 접근법이 세 모달 이상, 더 큰 다중 모달 설정으로 확장 가능한가?

주요 결과

방법데이터셋갭 ↓TV R@1TA R@1V-MeasurekNN
CLIP (LT)CIFAR10 (2 modal)0.8682.0-67.081.2
CLIP (FT)CIFAR10 (2 modal)0.1482.1-67.681.9
OursCIFAR10 (2 modal)0.0982.4-67.982.4
CLIP (LT)MSCOCO (2 modal)0.4774.6-12.9826.3
CLIP (FT)MSCOCO (2 modal)0.1273.2-12.9931.0
OursMSCOCO (2 modal)0.0370.3-23.6336.4
CLIP (LT)AV-MNIST (3 modal)0.2087.184.277.687.0
CLIP (FT)AV-MNIST (3 modal)0.2484.180.473.885.0
OursAV-MNIST (3 modal)0.0988.789.182.789.2
  • 격차를 해소하면 CIFAR10, MSCOCO, AV-MNIST 데이터세트에서 일관되게 클러스터링 지표(V-Measure, kNN)가 향상된다.
  • 격차가 감소함에 따라 검색 지표(R@1 for TV/TA)는 보존되거나 약간만 영향을 받는다.
  • 제안된 방법은 MSCOCO와 AV-MNIST에서 모달리티 격차를 거의 제로로 줄이는 반면 진실 쌍 코사인 유사도는 크게 향상된다.
  • 바이모달 및 트리모달 벤치마크 전반에서 격차 감소가 그룹 단위 의미를 향상시키고 인스턴스 단위 검색 성능은 저하시키지 않는다.
  • 이 방법은 거의 제로에 가까운 중심점 격차를 낳고 더 균형 잡히고 의미적으로 일관된 다중 모달 표현을 생성한다(공간 시각화 및 표 결과에 의해 입증).
Figure 2: AV-MNIST multimodal latent space. The CLIP-based learning creates a fragmented latent space with embeddings clearly clustered by modality and not by multimodal semantics. Our method closes the gap and enhances group-wise semantics, placing embeddings of the same class in the same portion o
Figure 2: AV-MNIST multimodal latent space. The CLIP-based learning creates a fragmented latent space with embeddings clearly clustered by modality and not by multimodal semantics. Our method closes the gap and enhances group-wise semantics, placing embeddings of the same class in the same portion o

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.