[논문 리뷰] Adversarial attacks against Modern Vision-Language Models
이 논문은 BIM, PGD, CLIP 기반 스펙트럴 공격에 대해 자체 구성된 이커머스 설정에서 오픈 소스 비전-언어 모델 LLaVA-v1.5-7B와 Qwen2.5-VL-7B를 평가하여 LLaVA의 취약성이 현저히 크고 모든 공격에서 Qwen의 견고함이 더 강하다는 것을 보여준다.
We study adversarial robustness of open-source vision-language model (VLM) agents deployed in a self-contained e-commerce environment built to simulate realistic pre-deployment conditions. We evaluate two agents, LLaVA-v1.5-7B and Qwen2.5-VL-7B, under three gradient-based attacks: the Basic Iterative Method (BIM), Projected Gradient Descent (PGD), and a CLIP-based spectral attack. Against LLaVA, all three attacks achieve substantial attack success rates (52.6%, 53.8%, and 66.9% respectively), demonstrating that simple gradient-based methods pose a practical threat to open-source VLM agents. Qwen2.5-VL proves significantly more robust across all attacks (6.5%, 7.7%, and 15.5%), suggesting meaningful architectural differences in adversarial resilience between open-source VLM families. These findings have direct implications for the security evaluation of VLM agents prior to commercial deployment.
연구 동기 및 목표
- 실제 자율 쇼핑 시나리오에서 오픈 소스 비전-언어 모델의 적대적 강건성 평가.
- 여러 그래디언트 기반 공격 아래 두 VLM 계열(LLaVA-v1.5-7B 및 Qwen2.5-VL-7B) 비교.
- VLM 기반 에이전트의 배포 전 보안 평가를 위한 실행 가능한 통찰 제공.
- 공격 유형과 모델 아키텍처가 실제 배포에서의 강건성에 미치는 영향 강조.
제안 방법
- Flask 상점 페이지, 추론 서버, Selenium 기반 브라우저 에이전트로 구성된 자체 구성 이커머스 레드팀 프레임워크를 구축.
- 세 가지 그래디언트 기반 공격 적용: BIM, PGD, CLIP 기반 스펙트럴 공격.
- 공격 교란은 예산과 스텝 크기로 L-무한 노름으로 제약; BIM/PGD는 화이트박스, CLIP 기반 공격은 전이 가능성을 위해 대리 CLIP 인코더를 사용.
- CLIP 스펙트럴 공격은 DCT 도메인에서 CLIP 임베딩 기하학을 다중 인코더에 걸쳐 타깃.
- 630회 실험 조건별 공격 성공률(ASR) 및 올바른 구매 비율(CPR)로 평가.
실험 결과
연구 질문
- RQ1실제 배포 시나리오에서 LLaVA-v1.5-7B와 Qwen2.5-VL-7B가 표준 화이트박스 그래디언트 기반 공격에 대해 어떻게 강건성이 다른가?
- RQ2CLIP 기반 스펙트럴 공격이 단일 모델에 대한 직접 그래디언트 기반 공격보다 모델 간 전이 효율이 더 큰가?
- RQ3자율 구매 설정에서 오픈 소스 VLM 에이전트의 배포 전 보안 평가에 대한 실용적 시사점은 무엇인가?
주요 결과
| 방법 | LLaVA-v1.5-7B CPR (%) | LLaVA-v1.5-7B ASR (%) | Qwen2.5-VL-7B CPR (%) | Qwen2.5-VL-7B ASR (%) |
|---|---|---|---|---|
| Clean Baseline | 90.2 ± 2.3 | — | 98.3 ± 1.0 | — |
| BIM | 47.4 ± 3.9 | 52.6 | 93.5 ± 1.9 | 6.5 |
| PGD | 46.2 ± 3.9 | 53.8 | 92.3 ± 2.1 | 7.7 |
| CLIP Spectral | 33.1 ± 3.7 | 66.9 | 84.5 ± 2.8 | 15.5 |
- LLaVA-v1.5-7B는 BIM(ASR 52.6%), PGD(ASR 53.8%), CLIP 스펙트럴 공격(ASR 66.9%)에 매우 취약하다.
- Qwen2.5-VL-7B는 BIM 6.5%, PGD 7.7%, CLIP 스펙트럴 15.5%로 훨씬 강한 저항을 보인다.
- CLIP 기반 스펙트럴 공격은 두 모델 모두에서 가장 높은 ASR을 달성하며 특히 LLaVA에서 강한 임베딩 공간 교란으로 공격 벡터가 된다.
- 공격 후 CPR은 Qwen에서 대체로 깨끗한 기준치에 근접한 반면(예: BIM 시 93.5%), LLaVA는 크게 하락한다(예: BIM 시 47.4%).
- 개방형 VLM 계열 간에 명백한 로버스트 편차가 있으며 아키텍처에 따라 균일하지 않으므로 배포 전 명시적으로 평가해야 한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.