[論文レビュー] Adaptive Global and Fine-Grained Perceptual Fusion for MLLM Embeddings Compatible with Hard Negative Amplification
AGFF-Embedは、グローバルおよび細粒度MLLM埋め込みの適応的融合を提示し、logsumexp集合とExplicit Gradient Amplificationを用いてハードネガティブを強化し、MMEBおよびMMVP-VLMベンチマークで最先端の結果を達成します。
Multimodal embeddings serve as a bridge for aligning vision and language, with the two primary implementations -- CLIP-based and MLLM-based embedding models -- both limited to capturing only global semantic information. Although numerous studies have focused on fine-grained understanding, we observe that complex scenarios currently targeted by MLLM embeddings often involve a hybrid perceptual pattern of both global and fine-grained elements, thus necessitating a compatible fusion mechanism. In this paper, we propose Adaptive Global and Fine-grained perceptual Fusion for MLLM Embeddings (AGFF-Embed), a method that prompts the MLLM to generate multiple embeddings focusing on different dimensions of semantic information, which are then adaptively and smoothly aggregated. Furthermore, we adapt AGFF-Embed with the Explicit Gradient Amplification (EGA) technique to achieve in-batch hard negatives enhancement without requiring fine-grained editing of the dataset. Evaluation on the MMEB and MMVP-VLM benchmarks shows that AGFF-Embed comprehensively achieves state-of-the-art performance in both general and fine-grained understanding compared to other multimodal embedding models.
研究の動機と目的
- MLLM埋め込みにおけるグローバルおよび細粒度知覚情報の統合の必要性を動機づけ、多様な画像-テキスト–から-画像-テキストマッチングタスクを扱えるようにする。
- AGFF-Embedを提案し、グローバルおよび細粒度の複数の埋め込みを生成し、滑らかな集約メカニズムを介して適応的に融合する。
- 追加データラベリングなしでAGFF-EmbedとExplicit Gradient Amplification (EGA)を組み合わせてハードネガティブを強化できるようにする。
- 提案された融合と増幅の下での勾配伝播を理論的に分析し、MMEBおよびMMVP-VLMベンチマークで性能を検証する。
- フレームワークの各構成要素(知覚パターン、集約、EGA適合性)を正当化するアブレーション研究を提供する。
提案手法
- まずグローバル埋め込みを生成し、次に学習可能なプロンプトトークンに導かれたN個の細粒度埋め込みモジュールを用意するPrompt駆動スキームを導入する。
- X^qとX^t埋め込みについて、グローバル-to-グローバル、細粒度-to-グローバル、グローバル-to-細粒度、細粒度-to-細粒度の4つの類似度を計算する。
- (3N+1)個の類似度を滑らかなlogsumexp関数で集約し、最終類似度s^finalを得る。
- s^final、温度tau、およびネガティブのバッチを用いたInfoNCE損失で訓練する。
- ハードネガティブに対してExplicit Gradient Amplification (EGA)を適用し、難易度h_i^-と勾配増幅後の更新確率に基づいて負確率を再加重する。
- AGFF-EmbedとEGAの下で勾配がどのように拡張するかを理論的に導出し、より難しい知覚パターンとより一貫した知覚パターンへの強調が高まることを示す。
実験結果
リサーチクエスチョン
- RQ1グローバルおよび細粒度知覚埋め込みの適応的融合は、グローバルおよび細粒度タスクの両方でMLLMベースの画像-テキストマッチングを改善できるか。
- RQ2滑らかなlogsumexpベースの融合は、勾配特性とハードネガティブ増幅との適合性の点で、最大値や平均最大より利点があるか。
- RQ3Explicit Gradient Amplificationは、多埋め込み融合とどのように相互作用して追加データラベリングなしでハードネガティブを強化するか。
- RQ4学習済みのプロンプトトークンは、さまざまな意味的次元で補完的な細粒度埋め込みを生成するようMLLMを効果的に導けるか。
- RQ5提案手法は、分布内および分布外設定でMMEBとMMVP-VLMベンチマークで最先端の性能を達成するか。
主な発見
- AGFF-Embedは、同程度のサイズのベースラインと比較してMMEBとMMVP-VLMベンチマークで最先端の性能を達成する。
- フレームワークは、一般的および細粒度の理解能力を向上させ、MMEBでのINDおよびOOD一般化が強力である。
- ゼロショット細粒度評価(MMVP-VLM)は、複数の細粒度属性でベースラインを上回り、属性レベルの知覚が効果的であることを示す。
- アブレーション研究は、堅牢な性能のために細粒度-to-グローバル、グローバル-to-細粒度、および細粒度-to-細粒度の知覚パターンを含める必要性を確認する。
- logsumexpベースの融合は、勾配挙動およびExplicit Gradient Amplification (EGA)との適合性の点で最大値または平均最大より優れている。
- Explicit Gradient Amplification (EGA)は、勾配へのハードネガティブ寄与に実測的な利得をもたらし、AGFF-Embedとの統合を裏付ける。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。