[논문 리뷰] VLATTACK: Multimodal Adversarial Attacks on Vision-Language Tasks via Pre-trained Models
VLAttack은 단일 모드와 다중 모드 전략을 결합하여 비공개(블랙박스) 다운스트림 VL 작업을 공격하기 위해 시각-언어 사전학습 모델에 대해 적대적 교란을 생성하고, 여러 모델 및 작업에서 더 높은 공격 성공률을 보인다. 이미지용 Block-wise Similarity Attack(BSA)와 다중 모달 교란을 위한 Iterative Cross-Search Attack(ICSA)를 도입한다.
Vision-Language (VL) pre-trained models have shown their superiority on many multimodal tasks. However, the adversarial robustness of such models has not been fully explored. Existing approaches mainly focus on exploring the adversarial robustness under the white-box setting, which is unrealistic. In this paper, we aim to investigate a new yet practical task to craft image and text perturbations using pre-trained VL models to attack black-box fine-tuned models on different downstream tasks. Towards this end, we propose VLATTACK to generate adversarial samples by fusing perturbations of images and texts from both single-modal and multimodal levels. At the single-modal level, we propose a new block-wise similarity attack (BSA) strategy to learn image perturbations for disrupting universal representations. Besides, we adopt an existing text attack strategy to generate text perturbations independent of the image-modal attack. At the multimodal level, we design a novel iterative cross-search attack (ICSA) method to update adversarial image-text pairs periodically, starting with the outputs from the single-modal level. We conduct extensive experiments to attack five widely-used VL pre-trained models for six tasks. Experimental results show that VLATTACK achieves the highest attack success rates on all tasks compared with state-of-the-art baselines, which reveals a blind spot in the deployment of pre-trained VL models. Source codes can be found at https://github.com/ericyinyzy/VLAttack.
연구 동기 및 목표
- 블랙박스 설정에서 다운스트림 태스크 모델에 접근할 수 없는 상황에서 시각-언어 모델의 적대적 로버스트니스를 동기 부여하고 연구한다.
- 사전 학습된 VL 모델을 통해 여러 다운스트림 VL 태스크를 공격할 수 있는 일반적인 공격 프레임워크를 개발한다.
- 전이성을 극대화하기 위해 단일 모드와 다중 모드 교란 전략을 제안한다.
제안 방법
- 단일 모드 수준: 이미지 인코더와 프리트레이닝 모델의 트랜스포머 인코더 사이의 중간 표현 간 코사인 거리를 최대화하는 Block-wise Similarity Attack(BSA)로 이미지 교란 생성.
- 단일 모드 수준: 강력한 NLP 공격(BERT-Attack)을 사용하여 텍스트 교란 적용하되 시맨틱 유사도가 임계값 이상 유지하기 위해 보편 문장 인코더를 사용.
- 다중 모달 수준: Iterative Cross-Search Attack(ICSA) 수행하여 다른 모달리티에 의해 안내되며 이미지-텍스트 쌍을 반복적으로 업데이트하고 상위-k 텍스트 교란을 재사용하며 이미지 교란을 정제.
- 크로스-모달 랭킹: 의미를 보존하면서 다운스트림 예측의 교란을 극대화하기 위해 벤ign 텍스트와의 코사인 유사도에 따라 상위-K 텍스트 교란 선택.
- 위협 모델 정렬: 프리트레이닝 모델에 접근 가능하고 다운스트림 미세조정 모델은 블랙 박스로만 질의할 수 있다고 가정.
실험 결과
연구 질문
- RQ1사전 학습 VL 모델로부터 다운스트림 블랙박스 VL 모델로의 적대적 교란이 태스크 간에 얼마나 전이 가능한가?
- RQ2단일 모드와 다중 모드 교란의 조합이 블랙박스 VL 설정에서 단일 모드 공격보다 성능이 좋을 수 있는가?
- RQ3이미지 특징 블록, 텍스트 시맨틱스 등 어떤 메커니즘이 VL 모델의 교란 전이성을 야기하는가?
- RQ4반복적 크로스-서치가 간단한 다중 모달 전략보다 공격 성공을 향상시키는가?
주요 결과
- VLAttack은 다섯 개의 사전 학습 VL 모델과 여섯 개의 태스크에서 최첨단 벤치마크보다 높은 공격 성공률을 달성한다.
- Block-wise Similarity Attack(BSA)가 중간 표현들을 분리하여 이미지 전용 교란의 효과를 크게 높인다.
- 다중 모달 반복적 크로스-서치 공격(ICSA)이 의미적으로 유사한 텍스트 교란으로 가이드된 이미지-텍스트 교란을 상호 업데이트하여 성공률을 추가로 높인다.
- 단일 모드 텍스트 교란은 텍스트 길이가 짧아 종종 성능이 떨어지므로 다중 모달 결합이 강력한 공격에 필수적이다.
- 단일 모드 설정에서 BSA는 이미지-캡션화, 이미지-분류 태스크에서 여전히 효과적이며 더 넓은 적용 가능성을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.