Skip to main content
QUICK REVIEW

[論文レビュー] Plug, Play, and Fortify: A Low-Cost Module for Robust Multimodal Image Understanding Models

Siqi Lu, Wanying Xu|arXiv (Cornell University)|Feb 26, 2026
Multimodal Machine Learning Applications被引用数 0
ひとこと要約

Frequency Ratio Metric (FRM)とMultimodal Weight Allocation Module (MWAM)を導入し、モダリティ偏りを定量化・緩和することで、バックボーンとタスクを超えて堅牢性を向上させるプラグアンドプレイ訓練介入を提供。

ABSTRACT

Missing modalities present a fundamental challenge in multimodal models, often causing catastrophic performance degradation. Our observations suggest that this fragility stems from an imbalanced learning process, where the model develops an implicit preference for certain modalities, leading to the under-optimization of others. We propose a simple yet efficient method to address this challenge. The central insight of our work is that the dominance relationship between modalities can be effectively discerned and quantified in the frequency domain. To leverage this principle, we first introduce a Frequency Ratio Metric (FRM) to quantify modality preference by analyzing features in the frequency domain. Guided by FRM, we then propose a Multimodal Weight Allocation Module, a plug-and-play component that dynamically re-balances the contribution of each branch during training, promoting a more holistic learning paradigm. Extensive experiments demonstrate that MWAM can be seamlessly integrated into diverse architectural backbones, such as those based on CNNs and ViTs. Furthermore, MWAM delivers consistent performance gains across a wide range of tasks and modality combinations. This advancement extends beyond merely optimizing the performance of the base model; it also manifests as further performance improvements to state-of-the-art methods addressing the missing modality problem.

研究の動機と目的

  • モダリティ欠損時にマルチモーダルモデルが性能を下げる原因を特定し、周波数領域信号がモダリティの嗜好を示すかを検討する。
  • 新しい Frequency Ratio Metric (FRM) を用いてモダリティ嗜好を定量化する。
  • 訓練中のモダリティ寄与を再平衡するプラグアンドプレイモジュール(MWAM)を開発する。
  • MWAM の有効性を diverse backbones(CNNs および ViTs)とタスクで実証する。
  • MWAM がベースモデルを超える堅牢性を高め、欠損モダリティへ対処する最先端手法を強化することを示す。

提案手法

  • 周波数領域の低周波成分と高周波成分を分析してFRMを定義・計算する。
  • FRMを用いてミニバッチごとに動的モダリティウェイトを割り当てるプラグアンドプレイモジュールとしてMWAMを設計する。
  • パッチ処理、DCT適用、低周波ブロックと高周波ブロックを抽出し、周波数ベースの特徴マップを形成する。
  • FRMバンクを用いてFRM信号をバッチ間で平滑化する更新ルール(Eq. 2)を適用する。
  • FRMをバッチ平均に対する相対比として適応的モダリティウェイトを計算する(Eq. 5–6)。
  • MWAMの損失を補助ヘッドと組み合わせるか、勾配編集と動的損失重み付けを用いる(Eq. 7)場合もある。
Figure 1: Impact of different frequency components on multimodal model performance. (a): Training loss curves. (b): Validation loss curves. (c): Validation accuracy curves. The numbers in the legend represent the window sizes of the filters, and ” Raw dataset ” denotes the original dataset without a
Figure 1: Impact of different frequency components on multimodal model performance. (a): Training loss curves. (b): Validation loss curves. (c): Validation accuracy curves. The numbers in the legend represent the window sizes of the filters, and ” Raw dataset ” denotes the original dataset without a

実験結果

リサーチクエスチョン

  • RQ1モダリティ嗜好は周波数領域で識別・定量化可能か。
  • RQ2FRMは訓練ダイナミクスを支配し欠損モダリティ下での堅牢性低下と相関するか。
  • RQ3MWAMはバックボーン・タスクを超えて学習の公平性と堅牢性を向上させるよう動的にモダリティ寄与を再平衡できるか。
  • RQ4MWAMは多様な融合戦略・アーキテクチャ(CNNsおよびViTs)と適合し、既存手法の性能限界を押し上げることができるか。

主な発見

  • FRMは訓練中の低周波優勢とモダリティ嗜好との強い相関を明らかにする。
  • MWAMは欠損モダリティが生じる場合に、複数のバックボーンとタスクで一貫して堅牢性と性能を向上させる。
  • MWAMはベースの堅牢モデル(例:RFNet、mmFormer、GSS)の性能を向上させ、単純な手法(SF-MD)をSOTAレベルへ押し上げる可能性がある。
  • MWAMは基礎設定でほぼパラメータフリーであり、訓練オーバーヘッドを最小限に抑える。
  • MWAM内の勾配編集またはハイブリッド損失アプローチが、モダリティ学習のバランスを取る最良の介入となる。
  • BRATS2020、NYU-Depth V2、SURFを通じた実験は広範な適用性と一般性を示す。
Figure 2: Architecture and application of our proposed MWAM. (a): Main structure of the MWAM. (b): FRM bank, designed to handle modality exceptions. Its update mechanism is governed by Eq. 2 . (c): An illustration of the integration of MWAM into a multimodal host model. The calculation rules of FRM
Figure 2: Architecture and application of our proposed MWAM. (a): Main structure of the MWAM. (b): FRM bank, designed to handle modality exceptions. Its update mechanism is governed by Eq. 2 . (c): An illustration of the integration of MWAM into a multimodal host model. The calculation rules of FRM

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。