[논문 리뷰] Content-based Unrestricted Adversarial Attack
본 논문은 Adversarial Content Attack (ACA)를 제시한다. 이는 확산 모델을 통해 저차원 자연 이미지 매니폴드에서 작동하는 제한 없는 적대적 공격으로, 모델 및 방어 체계 전반에 대해 높은 전달성(전이성)을 갖는 사진 실사에 가까운, 콘텐츠가 풍부한 적대적 예제를 생성한다.
Unrestricted adversarial attacks typically manipulate the semantic content of an image (e.g., color or texture) to create adversarial examples that are both effective and photorealistic, demonstrating their ability to deceive human perception and deep neural networks with stealth and success. However, current works usually sacrifice unrestricted degrees and subjectively select some image content to guarantee the photorealism of unrestricted adversarial examples, which limits its attack performance. To ensure the photorealism of adversarial examples and boost attack performance, we propose a novel unrestricted attack framework called Content-based Unrestricted Adversarial Attack. By leveraging a low-dimensional manifold that represents natural images, we map the images onto the manifold and optimize them along its adversarial direction. Therefore, within this framework, we implement Adversarial Content Attack based on Stable Diffusion and can generate high transferable unrestricted adversarial examples with various adversarial contents. Extensive experimentation and visualization demonstrate the efficacy of ACA, particularly in surpassing state-of-the-art attacks by an average of 13.3-50.4% and 16.8-48.0% in normally trained models and defense methods, respectively.
연구 동기 및 목표
- 사진실감을 유지하면서 다양한 콘텐츠 수정이 가능하도록 무제한 적대적 공격을 제시하는 동기를 제공한다.
- 이미지를 저차원 매니폴드에 매핑하고 적대적 방향으로 최적화하는 프레임워크를 제안한다.
- Stable Diffusion과 이미지 잠재 매핑(Image Latent Mapping) 및 적대적 잠재 최적화(Adversarial Latent Optimization)에 기반한 Adversarial Content Attack (ACA)를 개발한다.
- 일반적으로 훈련된 모델과 다양한 방어에 대해 ACA의 우수한 전달성을 입증한다.
제안 방법
- Image Latent Mapping (ILM)을 사용하여 실제 이미지를 확산 모델의 잠재 공간으로 매핑한다.
- 널 텍스트 임베딩(null text embedding)과 의미적 텍스트 임베딩을 사용하여 인공물 최소화하면서 잠재 표현을 재구성한다.
- Adversarial Latent Optimization (ALO)를 통해 확산 잠재 공간에서 적대적 방향으로 잠재 표현을 최적화한다.
- 원래 이미지와의 L2 거리를 최소화하고 교차 엔트로피 손실을 최대화하는 적대적 목적함수를 정의하며, 노이즈 제거 과정에 대해 스킵 그래디언트 근사를 사용한다.
- 잠재 값의 경계를 제약하기 위해 미분가능한 경계 처리(differentiable boundary processing)를 적용하고, 잠재 공간의 섭동에 모멘텀 기반의 반복 업데이트를 사용한다.
- 반전(inversion) 과정에서 이미지 실물을 유지하기 위해 높은 기본 가이드 가중치를 가진 분류기 없는 가이드(classifier-free guidance)와 널 텍스트 최적화를 적용한다.
실험 결과
연구 질문
- RQ1전이성을 향상시키면서 사진실감을 유지하는 잘 정렬된 저차원 매니폴드에서 무제한적 적대적 예제를 생성할 수 있는가?
- RQ2확산 모델의 잠재 공간에서의 최적화가 기존의 무제한 공격보다 더 다양하고 전이 가능한 적대적 콘텐츠를 만들어내는가?
- RQ3ACA가 일반적으로 훈련된 모델과 현재의 적대적 방어에 대해 CNN과 ViT 전반에서 어떤 성능을 보이는가?
- RQ4스킵 그래디언트와 미분가능한 경계 처리의 도입이 잠재 공간 적대적 최적화의 안정성 및 실재감(현실성)을 향상시키는가?
주요 결과
- ACA는 높은 전달성을 달성하여 일반적으로 훈련된 모델에 대해 무제한 공격 중에서 평균적으로 13.3%에서 50.4%의 개선으로 최첨단 공격을 능가한다.
- ACA는 다양한 방어에 걸쳐 경쟁 방법들을 능가하며, 방어된 모델에서 평균 약 16.8%에서 48.0%의 이점을 보인다.
- ImageNet 호환 데이터에 대한 실험은 ACA가 CNN과 ViT 모두에서 다수의 대리-대상 쌍 하에서 효과적임을 보여준다.
- 이미지 품질 지표는 ACA가 기준치 대비 지각되는 이미지 품질을 보존하거나 향상시킴을 나타낸다.
- 이 방법은 확산 모델 매니폴드를 활용하여 사진실성을 유지하면서 다양한 적대적 콘텐츠(형상, 질감, 색상)를 합성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.