Skip to main content
QUICK REVIEW

[論文レビュー] Feature-Space Adversarial Robustness Certification for Multimodal Large Language Models

Song Xia, Meiwen Ding|arXiv (Cornell University)|Jan 22, 2026
Adversarial Robustness in Machine Learning被引用数 0
ひとこと要約

paper introduces Feature-space Smoothing (FS) を導入し、multimodal LLM の feature 表現レベルで認定された堅牢性保証を提供し、プラグイン Gaussian Smoothness Booster (GSB) で再訓練不要で堅牢性を向上させる。

ABSTRACT

Multimodal large language models (MLLMs) exhibit strong capabilities across diverse applications, yet remain vulnerable to adversarial perturbations that distort their feature representations and induce erroneous predictions. To address this vulnerability, we propose Feature-space Smoothing (FS), a general framework that provides certified robustness guarantees at the feature representation level of MLLMs. We theoretically prove that FS converts a given feature extractor into a smoothed variant that is guaranteed a certified lower bound on the cosine similarity between clean and adversarial features under $\ell_2$-bounded perturbations. Moreover, we establish that the value of this Feature Cosine Similarity Bound (FCSB) is determined by the intrinsic Gaussian robustness score of the given encoder. Building on this insight, we introduce the Gaussian Smoothness Booster (GSB), a plug-and-play module that enhances the Gaussian robustness score of pretrained MLLMs, thereby strengthening the robustness guaranteed by FS, without requiring additional MLLM retraining. Extensive experiments demonstrate that applying the FS to various MLLMs yields strong certified feature-space robustness and consistently leads to robust task-oriented performance across diverse applications.

研究の動機と目的

  • Multimodal LLMs (MLLMs) の対敵摂動に対する正式な堅牢性保証を特徴表現レベルで提供することで動機づけと課題解決を図る。
  • Feature-space Smoothing (FS) を提案し、クリーン特徴と adversarial特徴間のコサイン類似度の l2 摂動下の認定下界を持つ滑らかな特徴エンコーダを作成する。
  • Gaussian Smoothness Booster (GSB) をプラグアンドプレイモジュールとして導入し、全モデルの再訓練なしにエンコーダの Gaussian 堅牢性を高める。
  • 特徴コサイン類似度境界 (FCSB) をエンコーダの Gaussian 堅牢性スコアに理論的に結びつけ、実験を通じて実用的な堅牢性向上を示す。

提案手法

  • 滑らかな特徴エンコーダを、ベースエンコーダの Gaussian 摂動に対する期待として定義する: f_hat_e(x) = E_{epsilon~N(0,I)}[f_e(x+epsilon)].
  • adversarial な特徴とクリーンな特徴の間の Feature Cosine Similarity Bound (FCSB) が Gaussian 堅牢性スコア S_hat(x) によって認定されることを確立する。
  • Cos(f_hat_e(x'), f_e(x)) >= 2 Phi( Phi^{-1}(S_hat(x)) - epsilon ) - 1 を、||x' - x||_2 <= epsilon の場合に成立させる(Theorem 3.2)。
  • Cos(f_hat_e(x'), f_e(x)) >= 0.5 となる認定半径 R を導出する(Corollary 3.3)。
  • Gaussian Smoothness Booster (GSB) は Gaussian denoiser P と residual smoothness mapper M から成り、全 MLML の再訓練なしに S_hat(x) を増やす。
  • purifier loss と L2 再構成損失を用いて P を訓練し、M を feature-consistency 及び正規化項(l_M_rb, l_stats, l_id) の組み合わせで訓練する。
  • deepest-layer features を cos ベースの prototype head で平滑化し、Randomized Smoothing (RS) と比較することで予測レベルの認定経路を提供する。
Figure 1 : Illustration of the FS-GSB, which guarantees that the cosine similarity of the adversarial and clean features extracted by MLLM’s encoder is larger than FCSB for robust predictions.
Figure 1 : Illustration of the FS-GSB, which guarantees that the cosine similarity of the adversarial and clean features extracted by MLLM’s encoder is larger than FCSB for robust predictions.

実験結果

リサーチクエスチョン

  • RQ1l2 摂動下で FS が MLLMs に対する証明可能な堅牢性保証を提供できるか?
  • RQ2 vanilla エンコーダの Gaussian 堅牢性スコアが認定された feature-space 堅牢性境界 (FCSB) にどう影響するか?
  • RQ3 プラグアンドプレイな Gaussian Smoothness Booster が再訓練なしで Gaussian 堅牢性を効果的に高め、FS の保証を改善できるか?
  • RQ4 FS と GSB が image captioning、image classification、VQA などの下流タスクに対して白箱攻撃下でどのような影響を与えるか?
  • RQ5 FS は RS と比較して MLLMs に対する予測レベルの堅牢性を提供するか?

主な発見

EncodersigmaAvg FCSB at different adv-bound epsilonAvg R (for FCSB >= 0.5)
CLIP-L140.250.828; 0.623; 0.313; -0.06; /0.31
CLIP-L14+GSB0.250.907; 0.763; 0.508; 0.152; /0.38
CLIP-L140.500.717; 0.586; 0.439; 0.253; -0.132; 0.33
CLIP-L14+GSB0.500.924; 0.873; 0.799; 0.698; 0.409; 0.69
  • FS は l2 摂動下で クリーン特徴と adversarial features のコサイン類似度の認定された下限を提供する。
  • FCSB は vanilla エンコーダの Gaussian 堅牢性スコアによって決まり、S_hat(x) が高いほどより強い境界を得る。
  • GSB は FCSB と、評価対象のエンコーダ・モデル全体で平均認定半径を著しく改善する。
  • FS (GSB 付き) は feature-wise 堅牢性 (FCS) と white-box 攻撃下でのタスク性能を複数の MLLM およびタスクで改善する。
  • FS による Prediction-wise 認定は RS と比べて堅牢性向上を競争力のあるレベルで提供し、複数の摂動レベルで認定精度が高い。
  • CLIP-L14 や LLaVA/OpenFlamingo などのオープンソースモデルで、FS+GSB は FCS、精度、強力な攻撃下の攻撃成功率において baselines(例: FARE, TeCoA)を上回る。
Figure 2 : The training framework of the GSB. The denoiser performs pre-processing, and the smoothness mapper refines post-extracted features to enhance the Gaussian robustness. Parameters of MLLMs are frozen, and the denoiser and mapper are optimized with $\mathcal{L}_{\mathcal{P}}$ and $\mathcal{L
Figure 2 : The training framework of the GSB. The denoiser performs pre-processing, and the smoothness mapper refines post-extracted features to enhance the Gaussian robustness. Parameters of MLLMs are frozen, and the denoiser and mapper are optimized with $\mathcal{L}_{\mathcal{P}}$ and $\mathcal{L

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。