Skip to main content
QUICK REVIEW

[논문 리뷰] Diffusion-Based Adversarial Sample Generation for Improved Stealthiness and Controllability

Haotian Xue, Alexandre Araujo|arXiv (Cornell University)|2023. 05. 25.
Adversarial Robustness in Machine Learning인용 수 9
한 줄 요약

사전 학습된 확산 모델을 활용하고 공격 손실을 현실성/스타일 손실과 분리하여 현실적이고 전달 가능하며 제어 가능한 적대 샘플을 생성하는 확산-유도 프로젝티드 그래디언트 디센트 프레임워크인 Diff-PGD를 소개합니다.

ABSTRACT

Neural networks are known to be susceptible to adversarial samples: small variations of natural examples crafted to deliberately mislead the models. While they can be easily generated using gradient-based techniques in digital and physical scenarios, they often differ greatly from the actual data distribution of natural images, resulting in a trade-off between strength and stealthiness. In this paper, we propose a novel framework dubbed Diffusion-Based Projected Gradient Descent (Diff-PGD) for generating realistic adversarial samples. By exploiting a gradient guided by a diffusion model, Diff-PGD ensures that adversarial samples remain close to the original data distribution while maintaining their effectiveness. Moreover, our framework can be easily customized for specific tasks such as digital attacks, physical-world attacks, and style-based attacks. Compared with existing methods for generating natural-style adversarial samples, our framework enables the separation of optimizing adversarial loss from other surrogate losses (e.g., content/smoothness/style loss), making it more stable and controllable. Finally, we demonstrate that the samples generated using Diff-PGD have better transferability and anti-purification power than traditional gradient-based methods. Code will be released in https://github.com/xavihart/Diff-PGD

연구 동기 및 목표

  • 경사 기반 방법으로 생성된 적대 샘플의 현실성 격차를 동기 부여하고 해소한다.
  • 분포적 현실성을 보존하면서 공격 효과를 유지하기 위해 확산 모델 가이드를 활용한 최적화 프레임워크를 개발한다.
  • 지역 마스크 및 스타일 가이드 프로ンプ트를 포함한 커스터마이즈 가능한 공격을 가능하게 한다.
  • 확산 기반 적대 샘플의 전달성 향상 및 항정화 로버스트성을 입증한다.
  • 디지털, 지역적, 스타일 기반 및 물리적 세계 공격에의 적용 가능성을 보여준다.

제안 방법

  • 입력의 정제된 버전 x0를 적대 손실에 입력하여 perturbation 최적화를 가이드하기 위해 사전 학습된 확산 모델을 사용한다.
  • 매 반복에서 SDEdit를 통해 표준 PGD 입력을 x0로 대체하여 잡음이 자연 데이터 분포에 가깝도록 한다.
  • 현실성을 보존하면서 적대적 목표를 최적화하는 Diff-PGD(지역 공격용 Diff-rPGD 포함)를 도입한다.
  • 안정성 및 제어 가능성을 향상시키기 위해 adversarial 손실을 스타일/현실성 등의 다른 surrogate 손실과 분리한다.
  • 프롬프트(마스크, 스타일 참조)로 커스터마이즈된 공격과 Diff-Phys 변형을 통한 물리적 세계 공격으로 확장한다.
  • 효과를 유지하면서 메모리/시간 비용을 줄이기 위한 그래디언트 근사 기법으로 가속을 제공한다.

실험 결과

연구 질문

  • RQ1Diff-PGD가 기존 PGD보다 더 높은 현실성(은닉성)을 가진 적대 샘플을 생성할 수 있는가?
  • RQ2확산 유도가 적대 샘플의 전달성 및 항정화 특성을 향상시키는가?
  • RQ3확산 기반 프레임워크가 지역 제한, 스타일 가이드 및 물리적 세계 공격을 더 높은 제어 가능성으로 지원할 수 있는가?
  • RQ4디지털, 지역, 맞춤형 및 물리적 공격 전반에 걸쳐 Diff-PGD가 PGD, AdvPatch, AdvCam과 어떻게 비교되는가?

주요 결과

방법은밀성시나리오제어가능성항정화전달성안정성
PGD**D*****
AdvPatch*P**(-)(-)**
NatPatch**P*(-)(-)**
AdvArt*P**(-)(-)**
AdvCam**D/P**(-)(-)*
Diff-PGD (Ours)**D/P********
  • Diff-PGD는 PGD보다 더 은밀한 적대 샘플을 생성하며, 교란은 더 매끄럽고 국지적으로 의존하는 모습이 나타난다.
  • Diff-PGD 및 Diff-rPGD는 디지털 공격과 지역 공격에서 여러 반복에 걸쳐 더 높은 성공률을 달성한다.
  • 스타일 참조를 활용한 커스터마이즈된 공격은 현실성을 유지하고 AdvCam 기반 접근법보다 은밀성을 더 높인다.
  • Diff-PGD 및 그 변형은 보이지 않는 모델로의 전달성 향상과 정화 모듈에 대한 항정화 로버스트성 개선을 보여준다.
  • 물리적 세계 공격에서 Diff-Phys는 더 매끈하고 현실적인 패치를 생성하여도 표적 객체를 공격하는 데 성공한다.
  • 정량적 결과는 Diff-PGD가 테스트된 모델에서 전달성과 항정화 측면에서 기준선보다 우수하다고 나타낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.