[논문 리뷰] Wasserstein Adversarial Examples via Projected Sinkhorn Iterations
해 Wasserstein 거리를 이미지에 대한 위협 모델로 도입하고 Wasserstein 적대적 예제를 생성하기 위한 Sinkhorn 기반의 빠른 투영 방법을 개발하며, 적대적 학습 및 강건성 분석을 제시한다.
A rapidly growing area of work has studied the existence of adversarial examples, datapoints which have been perturbed to fool a classifier, but the vast majority of these works have focused primarily on threat models defined by $\ell_p$ norm-bounded perturbations. In this paper, we propose a new threat model for adversarial attacks based on the Wasserstein distance. In the image classification setting, such distances measure the cost of moving pixel mass, which naturally cover "standard" image manipulations such as scaling, rotation, translation, and distortion (and can potentially be applied to other settings as well). To generate Wasserstein adversarial examples, we develop a procedure for projecting onto the Wasserstein ball, based upon a modified version of the Sinkhorn iteration. The resulting algorithm can successfully attack image classification models, bringing traditional CIFAR10 models down to 3% accuracy within a Wasserstein ball with radius 0.1 (i.e., moving 10% of the image mass 1 pixel), and we demonstrate that PGD-based adversarial training can improve this adversarial accuracy to 76%. In total, this work opens up a new direction of study in adversarial robustness, more formally considering convex metrics that accurately capture the invariances that we typically believe should exist in classifiers. Code for all experiments in the paper is available at https://github.com/locuslab/projected_sinkhorn.
연구 동기 및 목표
- Wasserstein 거리를 사용하여 l_p 노름을 넘어 perceptible한 이미지 변환을 포착하는 적대적 섭동 연구 동기를 부여한다.
- Wasserstein 구 안으로의 빠르고 근사적인 투영을 개발하여 반복적 적대적 공격을 가능하게 한다.
- 표준 모델에 대한 공격 효과를 입증하고 Wasserstein 초점의 적대적 학습을 통해 개선을 보여준다.
- Wasserstein 공격과 기존의 입증 가능한 방어 및 인증의 호환성 및 한계를 탐색한다.
제안 방법
- Wasserstein-구 투영을 엔트로피 정규화된 최적화 형태로 정의하여 Sinkhorn 유사 알고리즘을 가능하게 한다.
- 보조 변수(α, β, ψ)를 포함한 이중화 표현식을 도출하고 실용적 업데이트 규칙을 얻는다.
- Wasserstein-구 투영을 효율적으로 계산하기 위한 투영 Sinkhorn 반복(알고리즘 2)을 제공한다.
- 질량 이동을 k×k 인접 영역으로 제한하는 지역 운송 계획을 도입하여 복잡도를 O(n k^2)로 감소시킨다.
- 이 투영을 PGD 스타일의 적대적 공격과 적대적 학습(알고리즘 1)에 포함시킨다.
- 이중성 기반 인증과의 호환성을 분석하고 Wasserstein 섭동 하에서의 증명 가능한 강건성의 근본적 격차를 논의한다.
실험 결과
연구 질문
- RQ1Wasserstein 거리가 l_p 노름을 넘어 구조를 보존하는 자연스러운 적대적 예제 모델로 작용할 수 있는가?
- RQ2반복적 공격 및 학습을 가능하게 하는 Wasserstein 구로의 효율적 투영 방법은 무엇인가?
- RQ3Wasserstein 기반의 적대적 예제가 전통적 섭동과 비교해 다른 강건성 특성을 보이는가, 그리고 이를 악의적 학습으로 완화할 수 있는가?
- RQ4기존의 인증 가능한 강건성 방법이 Wasserstein 섭동과 호환되는가, 그리고 한계는 무엇인가?
- RQ5MNIST 및 CIFAR-10에서 Wasserstein 공격이 표준 모델 및 인증 가능한 모델에 어떤 실증적 영향을 미치는가?
주요 결과
- Wasserstein 섭동은 이미지 콘텐츠를 반영하는 구조적 변화로 나타나 일반적인 l_p 섭동과 차별화된다.
- 투영 Sinkhorn 반복을 이용한 빠른 근사 Wasserstein 투영은 Wasserstein 구 안에서 효과적인 PGD 유사 공격을 가능하게 한다.
- Wasserstein 섭동 하에서의 적대적 학습은 적대적 정확도를 크게 향상시킨다(예: CIFAR-10: 공격 하에서 3%에서 76%로 증가).
- l_infty 섭동에 대해 보증 가능한 강건성을 가진 모델은 Wasserstein 공격에 일부 견고성을 이전하지만 완전한 강건성은 아니다.
- 구간 경계 기반의 기존 인증 방어는 Wasserstein 섭동에 대해 근본적인 한계가 있어 새로운 검증 접근이 필요하다.
- CIFAR-10의 경우 Wasserstein 공격은 표준 모델에서 여전히 강력하다(예: epsilon=0.1에서 공격 성공률 97%).
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.