QUICK REVIEW

[論文レビュー] Adaptive Global and Fine-Grained Perceptual Fusion for MLLM Embeddings Compatible with Hard Negative Amplification

Lexiang Hu, Youze Xue|arXiv (Cornell University)|Feb 5, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

AGFF-Embedは、グローバルおよび細粒度MLLM埋め込みの適応的融合を提示し、logsumexp集合とExplicit Gradient Amplificationを用いてハードネガティブを強化し、MMEBおよびMMVP-VLMベンチマークで最先端の結果を達成します。

ABSTRACT

Multimodal embeddings serve as a bridge for aligning vision and language, with the two primary implementations -- CLIP-based and MLLM-based embedding models -- both limited to capturing only global semantic information. Although numerous studies have focused on fine-grained understanding, we observe that complex scenarios currently targeted by MLLM embeddings often involve a hybrid perceptual pattern of both global and fine-grained elements, thus necessitating a compatible fusion mechanism. In this paper, we propose Adaptive Global and Fine-grained perceptual Fusion for MLLM Embeddings (AGFF-Embed), a method that prompts the MLLM to generate multiple embeddings focusing on different dimensions of semantic information, which are then adaptively and smoothly aggregated. Furthermore, we adapt AGFF-Embed with the Explicit Gradient Amplification (EGA) technique to achieve in-batch hard negatives enhancement without requiring fine-grained editing of the dataset. Evaluation on the MMEB and MMVP-VLM benchmarks shows that AGFF-Embed comprehensively achieves state-of-the-art performance in both general and fine-grained understanding compared to other multimodal embedding models.

研究の動機と目的

MLLM埋め込みにおけるグローバルおよび細粒度知覚情報の統合の必要性を動機づけ、多様な画像-テキスト–から-画像-テキストマッチングタスクを扱えるようにする。
AGFF-Embedを提案し、グローバルおよび細粒度の複数の埋め込みを生成し、滑らかな集約メカニズムを介して適応的に融合する。
追加データラベリングなしでAGFF-EmbedとExplicit Gradient Amplification (EGA)を組み合わせてハードネガティブを強化できるようにする。
提案された融合と増幅の下での勾配伝播を理論的に分析し、MMEBおよびMMVP-VLMベンチマークで性能を検証する。
フレームワークの各構成要素（知覚パターン、集約、EGA適合性）を正当化するアブレーション研究を提供する。

提案手法

まずグローバル埋め込みを生成し、次に学習可能なプロンプトトークンに導かれたN個の細粒度埋め込みモジュールを用意するPrompt駆動スキームを導入する。
X^qとX^t埋め込みについて、グローバル-to-グローバル、細粒度-to-グローバル、グローバル-to-細粒度、細粒度-to-細粒度の4つの類似度を計算する。
(3N+1)個の類似度を滑らかなlogsumexp関数で集約し、最終類似度s^finalを得る。
s^final、温度tau、およびネガティブのバッチを用いたInfoNCE損失で訓練する。
ハードネガティブに対してExplicit Gradient Amplification (EGA)を適用し、難易度h_i^-と勾配増幅後の更新確率に基づいて負確率を再加重する。
AGFF-EmbedとEGAの下で勾配がどのように拡張するかを理論的に導出し、より難しい知覚パターンとより一貫した知覚パターンへの強調が高まることを示す。

実験結果

リサーチクエスチョン

RQ1グローバルおよび細粒度知覚埋め込みの適応的融合は、グローバルおよび細粒度タスクの両方でMLLMベースの画像-テキストマッチングを改善できるか。
RQ2滑らかなlogsumexpベースの融合は、勾配特性とハードネガティブ増幅との適合性の点で、最大値や平均最大より利点があるか。
RQ3Explicit Gradient Amplificationは、多埋め込み融合とどのように相互作用して追加データラベリングなしでハードネガティブを強化するか。
RQ4学習済みのプロンプトトークンは、さまざまな意味的次元で補完的な細粒度埋め込みを生成するようMLLMを効果的に導けるか。
RQ5提案手法は、分布内および分布外設定でMMEBとMMVP-VLMベンチマークで最先端の性能を達成するか。

主な発見

AGFF-Embedは、同程度のサイズのベースラインと比較してMMEBとMMVP-VLMベンチマークで最先端の性能を達成する。
フレームワークは、一般的および細粒度の理解能力を向上させ、MMEBでのINDおよびOOD一般化が強力である。
ゼロショット細粒度評価（MMVP-VLM）は、複数の細粒度属性でベースラインを上回り、属性レベルの知覚が効果的であることを示す。
アブレーション研究は、堅牢な性能のために細粒度-to-グローバル、グローバル-to-細粒度、および細粒度-to-細粒度の知覚パターンを含める必要性を確認する。
logsumexpベースの融合は、勾配挙動およびExplicit Gradient Amplification (EGA)との適合性の点で最大値または平均最大より優れている。
Explicit Gradient Amplification (EGA)は、勾配へのハードネガティブ寄与に実測的な利得をもたらし、AGFF-Embedとの統合を裏付ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。