Skip to main content
QUICK REVIEW

[논문 리뷰] Directional Embedding Smoothing for Robust Vision Language Models

Ye Wang, Jing Liu|arXiv (Cornell University)|2026. 03. 16.
Adversarial Robustness in Machine Learning인용 수 0
한 줄 요약

본 논문은 RESTA를 비전-언어 모델에 확장하고 방향성 임베딩 노이즈가 다중 모달 jailbreaking에 대한 방어를 실질적으로 개선하며 LLaVA와 Gemma 모델 전반에서 안전성과 유용성의 트레이드오프가 우호적임을 보인다.

ABSTRACT

The safety and reliability of vision-language models (VLMs) are a crucial part of deploying trustworthy agentic AI systems. However, VLMs remain vulnerable to jailbreaking attacks that undermine their safety alignment to yield harmful outputs. In this work, we extend the Randomized Embedding Smoothing and Token Aggregation (RESTA) defense to VLMs and evaluate its performance against the JailBreakV-28K benchmark of multi-modal jailbreaking attacks. We find that RESTA is effective in reducing attack success rate over this diverse corpus of attacks, in particular, when employing directional embedding noise, where the injected noise is aligned with the original token embedding vectors. Our results demonstrate that RESTA can contribute to securing VLMs within agentic systems, as a lightweight, inference-time defense layer of an overall security framework.

연구 동기 및 목표

  • 대리적 AI 시스템에서 비전-언어 모델의 안전성과 신뢰성 필요성을 동기화한다.
  • VLM에 대해 RESTA 방어를 적응시키고 jailbreaking 공격 완화를 위해 평가한다.
  • 여러 VLM에 걸쳐 JailBreakV-28K와 ScienceQA 벤치마크를 사용한 보안-유용성 트레이드오프를 평가한다.
  • 임베딩 노이즈 방향성의 방어 효율성에 미치는 영향을 식별한다.

제안 방법

  • 자 autoregressive 생성 중 사용자-콘텐츠 임베딩을 섭동시켜 RESTA를 VLM에 확장한다.
  • 두 가지 섭동 변형을 비교한다: 등방성 가우시안 노이즈와 임베딩 방향에 정렬된 강한 방향성 노이즈.
  • 토큰당 k=10 섭동을 사용하고 다수결로 다음 토큰을 선택한다.
  • JailBreakV-28K를 사용한 공격 성공률과 ScienceQA를 통한 유용성으로 방어를 평가한다.
  • LLaVA-1.5-7B 및 Gemma-3-4B 모델에 대한 결과를 제공한다.

실험 결과

연구 질문

  • RQ1 directional (hard) embedding noise가 등방성 노이즈에 비해 VLM의 RESTA 효과를 개선하는가?
  • RQ2JailBreakV-28K 공격 하에서 Vision-Language Models에 RESTA를 적용했을 때 보안-유용성 트레이드오프는 어떠한가?
  • RQ3LLaVA-1.5-7B와 Gemma-3-4B는 RESTA 섭동에 어떻게 다르게 반응하는가?
  • RQ4임베딩 방향성이 침해 방지 성공률을 낮추면서 의미 콘텐츠를 보존하는 데 핵심 요소인가?
  • RQ5RESTA 기반 VLM에 대한 적응적 공격의 한계와 향후 방향은 무엇인가?

주요 결과

노이즈 σSciQA (%) (강한)ASR (%) (강한)SciQA (%) (일반)ASR (%) (일반)
064.0750.1364.0750.13
0.00164.2149.9164.0450.20
0.00263.8549.2664.0250.10
0.00363.5547.08
0.00461.9737.64
0.00561.4225.9363.9049.08
0.00658.4520.79
0.00755.9318.17
0.00851.6415.81
0.00947.7212.67
0.01045.3710.1960.5046.08
0.01142.217.93
0.01239.596.40
0.01336.935.30
0.01434.994.46
0.01532.003.7455.4142.91
0.02023.462.3739.0942.75
0.02519.002.1414.9732.60
0.03016.202.039.5023.62
0.04011.741.8415.025.04
0.05010.731.9323.085.20
  • 강한 방향성 노이즈가 두 VLM 모두에 대해 등방성 노이즈보다 더 유리한 보안-유용성 트레이드오프를 낸다.
  • LLaVA-1.5-7B: jailbreak ASR이 50.13%에서 25.93%로 감소하고 SciQA 정확도 손실은 최소화된다(64.07%에서 61.42%).
  • Gemma-3-4B: sigma에 따라 ASR 및 SciQA가 달라지며, 높은 노이즈 수준에서 ASR 감소를 크게 보이고 SciQA 성능도 여전히 의미 있는 수준으로 유지된다(예: sigma가 0.5–1.5까지 substantial ASR 감소).
  • 등방성 노이즈는 일반적으로 트레이드오프가 열등하거나 무의미한 베이스라인에 근접한다.
  • RESTA는 VLM의 보안 프레임워크 내에서 경량의 추론 시 방어Layer로 작동할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.