QUICK REVIEW

[논문 리뷰] Adversarial attacks against Modern Vision-Language Models

Alejandro Paredes La Torre|arXiv (Cornell University)|2026. 03. 17.

Adversarial Robustness in Machine Learning인용 수 0

한 줄 요약

이 논문은 BIM, PGD, CLIP 기반 스펙트럴 공격에 대해 자체 구성된 이커머스 설정에서 오픈 소스 비전-언어 모델 LLaVA-v1.5-7B와 Qwen2.5-VL-7B를 평가하여 LLaVA의 취약성이 현저히 크고 모든 공격에서 Qwen의 견고함이 더 강하다는 것을 보여준다.

ABSTRACT

We study adversarial robustness of open-source vision-language model (VLM) agents deployed in a self-contained e-commerce environment built to simulate realistic pre-deployment conditions. We evaluate two agents, LLaVA-v1.5-7B and Qwen2.5-VL-7B, under three gradient-based attacks: the Basic Iterative Method (BIM), Projected Gradient Descent (PGD), and a CLIP-based spectral attack. Against LLaVA, all three attacks achieve substantial attack success rates (52.6%, 53.8%, and 66.9% respectively), demonstrating that simple gradient-based methods pose a practical threat to open-source VLM agents. Qwen2.5-VL proves significantly more robust across all attacks (6.5%, 7.7%, and 15.5%), suggesting meaningful architectural differences in adversarial resilience between open-source VLM families. These findings have direct implications for the security evaluation of VLM agents prior to commercial deployment.

연구 동기 및 목표

실제 자율 쇼핑 시나리오에서 오픈 소스 비전-언어 모델의 적대적 강건성 평가.
여러 그래디언트 기반 공격 아래 두 VLM 계열(LLaVA-v1.5-7B 및 Qwen2.5-VL-7B) 비교.
VLM 기반 에이전트의 배포 전 보안 평가를 위한 실행 가능한 통찰 제공.
공격 유형과 모델 아키텍처가 실제 배포에서의 강건성에 미치는 영향 강조.

제안 방법

Flask 상점 페이지, 추론 서버, Selenium 기반 브라우저 에이전트로 구성된 자체 구성 이커머스 레드팀 프레임워크를 구축.
세 가지 그래디언트 기반 공격 적용: BIM, PGD, CLIP 기반 스펙트럴 공격.
공격 교란은 예산과 스텝 크기로 L-무한 노름으로 제약; BIM/PGD는 화이트박스, CLIP 기반 공격은 전이 가능성을 위해 대리 CLIP 인코더를 사용.
CLIP 스펙트럴 공격은 DCT 도메인에서 CLIP 임베딩 기하학을 다중 인코더에 걸쳐 타깃.
630회 실험 조건별 공격 성공률(ASR) 및 올바른 구매 비율(CPR)로 평가.

실험 결과

연구 질문

RQ1실제 배포 시나리오에서 LLaVA-v1.5-7B와 Qwen2.5-VL-7B가 표준 화이트박스 그래디언트 기반 공격에 대해 어떻게 강건성이 다른가?
RQ2CLIP 기반 스펙트럴 공격이 단일 모델에 대한 직접 그래디언트 기반 공격보다 모델 간 전이 효율이 더 큰가?
RQ3자율 구매 설정에서 오픈 소스 VLM 에이전트의 배포 전 보안 평가에 대한 실용적 시사점은 무엇인가?

주요 결과

방법	LLaVA-v1.5-7B CPR (%)	LLaVA-v1.5-7B ASR (%)	Qwen2.5-VL-7B CPR (%)	Qwen2.5-VL-7B ASR (%)
Clean Baseline	90.2 ± 2.3	—	98.3 ± 1.0	—
BIM	47.4 ± 3.9	52.6	93.5 ± 1.9	6.5
PGD	46.2 ± 3.9	53.8	92.3 ± 2.1	7.7
CLIP Spectral	33.1 ± 3.7	66.9	84.5 ± 2.8	15.5

LLaVA-v1.5-7B는 BIM(ASR 52.6%), PGD(ASR 53.8%), CLIP 스펙트럴 공격(ASR 66.9%)에 매우 취약하다.
Qwen2.5-VL-7B는 BIM 6.5%, PGD 7.7%, CLIP 스펙트럴 15.5%로 훨씬 강한 저항을 보인다.
CLIP 기반 스펙트럴 공격은 두 모델 모두에서 가장 높은 ASR을 달성하며 특히 LLaVA에서 강한 임베딩 공간 교란으로 공격 벡터가 된다.
공격 후 CPR은 Qwen에서 대체로 깨끗한 기준치에 근접한 반면(예: BIM 시 93.5%), LLaVA는 크게 하락한다(예: BIM 시 47.4%).
개방형 VLM 계열 간에 명백한 로버스트 편차가 있으며 아키텍처에 따라 균일하지 않으므로 배포 전 명시적으로 평가해야 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.