Skip to main content
QUICK REVIEW

[논문 리뷰] Feature-Space Adversarial Robustness Certification for Multimodal Large Language Models

Song Xia, Meiwen Ding|arXiv (Cornell University)|2026. 01. 22.
Adversarial Robustness in Machine Learning인용 수 0
한 줄 요약

이 논문은 다중 모달 LLM의 특성 표현 수준에서 인증된 강건성 보장을 제공하기 위해 Feature-space Smoothing(FS)을 도입하고, 전체 모델 재훈련 없이 강건성을 향상시키는 플러그인 Gaussian Smoothness Booster(GSB)를 추가로 제시한다.

ABSTRACT

Multimodal large language models (MLLMs) exhibit strong capabilities across diverse applications, yet remain vulnerable to adversarial perturbations that distort their feature representations and induce erroneous predictions. To address this vulnerability, we propose Feature-space Smoothing (FS), a general framework that provides certified robustness guarantees at the feature representation level of MLLMs. We theoretically prove that FS converts a given feature extractor into a smoothed variant that is guaranteed a certified lower bound on the cosine similarity between clean and adversarial features under $\ell_2$-bounded perturbations. Moreover, we establish that the value of this Feature Cosine Similarity Bound (FCSB) is determined by the intrinsic Gaussian robustness score of the given encoder. Building on this insight, we introduce the Gaussian Smoothness Booster (GSB), a plug-and-play module that enhances the Gaussian robustness score of pretrained MLLMs, thereby strengthening the robustness guaranteed by FS, without requiring additional MLLM retraining. Extensive experiments demonstrate that applying the FS to various MLLMs yields strong certified feature-space robustness and consistently leads to robust task-oriented performance across diverse applications.

연구 동기 및 목표

  • 다중 모달 LLM(MLLMs)의 적대적 취약점을 형식적 강건성 보장을 특성 표현 수준에서 제공함으로써 동기를 부여하고 해결한다.
  • 특성 공간 스무딩(Feature-space Smoothing, FS)을 제안하여 깨끗한 특징과 적대적 특징 간의 코사인 유사도에 대한 인증된 하한을 갖는 스무딩된 특성 인코더를 만들어 l2扰动 하에서의 보장을 제공한다.
  • 전체 모델 재훈 training 없이 인코더의 가우시안 강건성을 높이기 위한 플러그 앤 플레이 모듈인 Gaussian Smoothness Booster(GSB)를 도입한다.
  • 특성 코사인 유사도 하한(FCSB)을 인코더의 가우시안 강건성 점수와 이론적으로 연결하고, 실험을 통해 실용적인 강건성 향상을 입증한다.

제안 방법

  • 스무딩된 특성 인코더를 기본 인코더에 대한 가우시안扰动의 기댓값으로 정의한다: f_hat_e(x) = E_{epsilon~N(0,I)}[f_e(x+epsilon)].
  • 적대적 특징과 깨끗한 특징 사이의 Feature Cosine Similarity Bound(FCSB)이 가우시안 강건성 점수 S_hat(x)로 인증된다고 보인다.
  • Cos(f_hat_e(x'), f_e(x)) >= 2 Phi( Phi^{-1}(S_hat(x)) - epsilon ) - 1 이 성립함을 보인다. 단, ||x' - x||_2 <= epsilon인 경우(Theorem 3.2).
  • Cos(f_hat_e(x'), f_e(x)) >= 0.5인 인증 반지름 R을 도출한다(Corollary 3.3).
  • GSB는 Gaussian denoiser P와 잔여 스무스 매퍼 M으로 구성되어 전체 MLLM 재훈련 없이 S_hat(x)를 증가시킨다.
  • purifier 손실과 L2 재구성 손실로 P를 학습하고, M을 특징 일관성 및 정규화 항(l_M_rb, l_stats, l_id)의 조합으로 학습한다.
  • 예측별 인증 경로를 제공하기 위해 가장 깊은 층 특징을 코사인 기반 프로토타입 헤드로 스무딩하고 이를 Randomized Smoothing(RS)과 비교한다.
Figure 1 : Illustration of the FS-GSB, which guarantees that the cosine similarity of the adversarial and clean features extracted by MLLM’s encoder is larger than FCSB for robust predictions.
Figure 1 : Illustration of the FS-GSB, which guarantees that the cosine similarity of the adversarial and clean features extracted by MLLM’s encoder is larger than FCSB for robust predictions.

실험 결과

연구 질문

  • RQ1l2扰动 하에서 FS가 MLLMs에 대해 보증 가능한 강건성 보장을 제공할 수 있는가?
  • RQ2 vanilla 인코더의 가우시안 강건성 점수가 인증된 특성 공간 강건성 하한(FCSB)에 어떤 영향을 미치는가?
  • RQ3플러그 앤 플레이 Gaussian Smoothness Booster가 전체 모델 재훈련 없이 Gaussian 강건성과 FS 보장을 효과적으로 향상시킬 수 있는가?
  • RQ4FS와 GSB가 이미지 캡션 생성, 이미지 분류, VQA와 같은 다운스트림 태스크에 강한 화이트박스 공격 하에서 어떤 영향을 미치는가?
  • RQ5FS가 RS와 비교해 MLLMs의 예측 수준 강건성을 제공하는가?

주요 결과

EncodersigmaAvg FCSB at different adv-bound epsilonAvg R (for FCSB >= 0.5)
CLIP-L140.250.828; 0.623; 0.313; -0.06; /0.31
CLIP-L14+GSB0.250.907; 0.763; 0.508; 0.152; /0.38
CLIP-L140.500.717; 0.586; 0.439; 0.253; -0.132; 0.33
CLIP-L14+GSB0.500.924; 0.873; 0.799; 0.698; 0.409; 0.69
  • FS는 l2扰动 하에서 깨끗한 특징 표현과 적대적 특징 표현 사이의 코사인 유사도에 대해 인증된 하한을 제공한다.
  • FCSB는 vanilla 인코더의 가우시안 강건성 점수에 의해 결정되며, S_hat(x)가 높을수록 더 강한 하한이 주어진다.
  • GSB는 평가된 인코더 및 모델 전체에서 FCSB와 평균 인증 반지름을 크게 향상시킨다.
  • 실험 결과 FS(GBS와 함께)가 여러 MLLM과 태스크에서 특징 단위 강건성(FCS)과 화이트박스 공격 하에서의 태스크 성능을 향상시킨다.
  • FS를 통한 예측 차원의 인증은 RS에 비해 경쟁력 있는 강건성 이득을 제공하며, 여러扰动 수준에서 더 높은 인증 정확도를 보인다.
  • CLIP-L14 및 LLaVA/OpenFlamingo 변형과 같은 오픈소스 모델에서 FS+GSB가 FCS, 정확도, 강한 공격 하의 공격 성공률에서 baselines(FARE, TeCoA 등)보다 우수하다.
Figure 2 : The training framework of the GSB. The denoiser performs pre-processing, and the smoothness mapper refines post-extracted features to enhance the Gaussian robustness. Parameters of MLLMs are frozen, and the denoiser and mapper are optimized with $\mathcal{L}_{\mathcal{P}}$ and $\mathcal{L
Figure 2 : The training framework of the GSB. The denoiser performs pre-processing, and the smoothness mapper refines post-extracted features to enhance the Gaussian robustness. Parameters of MLLMs are frozen, and the denoiser and mapper are optimized with $\mathcal{L}_{\mathcal{P}}$ and $\mathcal{L

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.