Skip to main content
QUICK REVIEW

[論文レビュー] Closing the Modality Gap Aligns Group-Wise Semantics

Eleonora Grassucci, Giordano Cicchetti|arXiv (Cornell University)|Jan 26, 2026
Domain Adaptation and Few-Shot Learning被引用数 0
ひとこと要約

この論文は、モダリティ間のギャップを縮小することで、インスタンスレベルの検索精度を損なうことなく、クラスタリングなどのグループ指向タスクを改善することを示しており、Align True Pairs(ATP)と Centroid Uniformity(CU) lossを導入する。方法はモダリティ間の距離を低減し、二系統モーダルおよび三系統データ全体でセマンティック・クラスターを強化する。

ABSTRACT

In multimodal learning, CLIP has been recognized as the extit{de facto} method for learning a shared latent space across multiple modalities, placing similar representations close to each other and moving them away from dissimilar ones. Although CLIP-based losses effectively align modalities at the semantic level, the resulting latent spaces often remain only partially shared, revealing a structural mismatch known as the modality gap. While the necessity of addressing this phenomenon remains debated, particularly given its limited impact on instance-wise tasks (e.g., retrieval), we prove that its influence is instead strongly pronounced in group-level tasks (e.g., clustering). To support this claim, we introduce a novel method designed to consistently reduce this discrepancy in two-modal settings, with a straightforward extension to the general $n$-modal case. Through our extensive evaluation, we demonstrate our novel insight: while reducing the gap provides only marginal or inconsistent improvements in traditional instance-wise tasks, it significantly enhances group-wise tasks. These findings may reshape our understanding of the modality gap, highlighting its key role in improving performance on tasks requiring semantic grouping.

研究の動機と目的

  • マルチモーダルモデルにおけるモダリティギャップを retrieval タスクを超えて動機づけ・定量化する。
  • ギャップの縮小がクラスタリングなどのグループ指向意味論を高めることを示す。
  • アーキテクチャ変更なしで2つ以上のモダリティ間のギャップを閉じる、単純でスケーラブルな目的関数を提案する。
  • 二モーダルおよびトリモーダルのベンチマークで empirical gains を示しつつ、インスタンスレベルの性能を維持する。

提案手法

  • InfoNCEベースの対比学習を定式化し、モダリティギャップをセントロイド距離と真ペアコサイン類似度で定義する。
  • モダリティ間の距離を共通アンカーへ最小化するよう Align True Pairs(L_ATP)を導入する。
  • Centroid Uniformity(L_CU)を導入し、モダリティセントロイドの均一分布を促進して崩壊を回避する。
  • L_gap = L_ATP + L_CU を標準の双方向対比損失と組み合わせて L_CL_gap を得る。
  • アーキテクチャ変更なしで bimodal から multimodal(2モダリティ以上)へ拡張する。
  • L_CL_gap がモダリティギャップをほぼゼロに近づけつつ、真ペアの整合性を維持し、グループ指向構造を改善することを示す。
Figure 1: Reducing the gap consistently improves clustering metrics, while leaving unaffected retrieval ones. On the contrary, increasing the gap downgrades the V-Measure, bringing no improvements in R@1. In CLIP, the gap results in very poor clustering performance due to the latent space fragmentat
Figure 1: Reducing the gap consistently improves clustering metrics, while leaving unaffected retrieval ones. On the contrary, increasing the gap downgrades the V-Measure, bringing no improvements in R@1. In CLIP, the gap results in very poor clustering performance due to the latent space fragmentat

実験結果

リサーチクエスチョン

  • RQ1モダリティギャップの縮小は、複数モダリティに対してクラスタ中心の指標(例:V-Measure)を検索指標よりも改善するか。
  • RQ2真ペアの整合とセントロイド均一性を組み合わせた単純な目的が、インスタンスレベルの性能を損なうことなくギャップを縮小できるか。
  • RQ3提案するギャップ解消法は3モダリティ以上の大規模なマルチモーダル設定にもスケーラブルか。

主な発見

MethodDatasetGap ↓TV R@1TA R@1V-MeasurekNN
CLIP (LT)CIFAR10 (2 modal)0.8682.0-67.081.2
CLIP (FT)CIFAR10 (2 modal)0.1482.1-67.681.9
OursCIFAR10 (2 modal)0.0982.4-67.982.4
CLIP (LT)MSCOCO (2 modal)0.4774.6-12.9826.3
CLIP (FT)MSCOCO (2 modal)0.1273.2-12.9931.0
OursMSCOCO (2 modal)0.0370.3-23.6336.4
CLIP (LT)AV-MNIST (3 modal)0.2087.184.277.687.0
CLIP (FT)AV-MNIST (3 modal)0.2484.180.473.885.0
OursAV-MNIST (3 modal)0.0988.789.182.789.2
  • ギャップを閉じることは、CIFAR10、MSCOCO、AV-MNIST のデータセット全体でクラスタリング指標(V-Measure、kNN)を一貫して改善する。
  • ギャップが縮小するにつれて、検索指標(R@1 for TV/TA)は維持されるか、ほとんど影響を受けない。
  • 提案手法は MSCOCO および AV-MNIST でモダリティギャップをほぼゼロに近づけつつ、真ペアのコサイン類似度を大幅に向上させる。
  • bimodal および trimodal のベンチマーク全体で、ギャップ縮小はインスタンスレベルの検索を損なうことなく、グループ指向意味論を改善する。
  • 手法はほぼゼロのセントロイドギャップと、スペースの可視化および表結果からほうじゃしい、よりバランスのとれた意味的に整合したマルチモーダル表現を生み出す。
Figure 2: AV-MNIST multimodal latent space. The CLIP-based learning creates a fragmented latent space with embeddings clearly clustered by modality and not by multimodal semantics. Our method closes the gap and enhances group-wise semantics, placing embeddings of the same class in the same portion o
Figure 2: AV-MNIST multimodal latent space. The CLIP-based learning creates a fragmented latent space with embeddings clearly clustered by modality and not by multimodal semantics. Our method closes the gap and enhances group-wise semantics, placing embeddings of the same class in the same portion o

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。