QUICK REVIEW

[논문 리뷰] Quantifying Perceptual Distortion of Adversarial Examples

Matt Jordan, Naren Sarayu Manoj|arXiv (Cornell University)|2019. 02. 21.

Adversarial Robustness in Machine Learning참고 문헌 21인용 수 31

한 줄 요약

이 논문은 $\delta$-additive 및 플로우 기반 편향을 비교함으로써 적대적 예제에 대한 형식적 분석을 제안하며, 두 위협 모델을 조합하면 개별적으로는 도달할 수 없는 적대적 예제를 생성할 수 있음을 보여준다. 주요 기여는 국소 이미지 영역이 추가 공격에 대해 저대비이고 플로우 공격에 대해 고대비일 경우, 병합된 공격 공간이 크게 확장되어 더 강력하고 다양한 적대적 예제를 생성할 수 있음을 이론적으로 증명한 것이다.

ABSTRACT

Recent work has shown that additive threat models, which only permit the addition of bounded noise to the pixels of an image, are insufficient for fully capturing the space of imperceivable adversarial examples. For example, small rotations and spatial transformations can fool classifiers, remain imperceivable to humans, but have large additive distance from the original images. In this work, we leverage quantitative perceptual metrics like LPIPS and SSIM to define a novel threat model for adversarial attacks. To demonstrate the value of quantifying the perceptual distortion of adversarial examples, we present and employ a unifying framework fusing different attack styles. We first prove that our framework results in images that are unattainable by attack styles in isolation. We then perform adversarial training using attacks generated by our framework to demonstrate that networks are only robust to classes of adversarial perturbations they have been trained against, and combination attacks are stronger than any of their individual components. Finally, we experimentally demonstrate that our combined attacks retain the same perceptual distortion but induce far higher misclassification rates when compared against individual attacks.

연구 동기 및 목표

적대적 편향의 인지적 및 구조적 차이를 $\delta$-additive 및 플로우 기반 편향 간에 형식적으로 분석하는 것.
국소 이미지 대비에 기반해 한 공격 유형이 다른 공격 유형보다 더 큰 픽셀 변화를 달성할 수 있는 조건을 규명하는 것.
두 공격 유형을 조합함으로써 개별적으로는 도달할 수 없는 적대적 예제를 생성할 수 있음을 보여주는 것.
실제 이미지(예: CIFAR-10 및 ImageNet)에 저대비 및 고대비 영역이 얼마나 흔한지 실증적으로 검증하는 것.

제안 방법

국소 대비를 $C_{\text{max}}(x_{00}) = \max_{i,j \in \{-1,0,1\}} |x_{ij} - x_{00}|$로 정의하여 3x3 이웃 영역 내 최대 픽셀 차이를 측정한다.
비대각선 픽셀 차이를 분리하기 위해 $E_{\text{max}}(x_{00}) = \max_{|i| \neq |j|} |x_{ij} - x_{00}|$를 도입하여 기하학적 복잡성을 캡처한다.
레마 1을 통해 이중선형 보간을 사용해 플로우 편향을 모델링하며, 새로운 픽셀 값을 4분면 꼭짓점의 가중 평균으로 표현한다.
플로우 편향은 $\epsilon \in [0,1]$ 범위로 제한되고, 추가 편향은 $\delta$로 제한되는 형식적 위협 모델을 수립한다.
레마 2를 사용해 저대비 영역에서는 추가 편향이 플로우 편향의 크기보다 클 수 있음을 보여준다.
레마 3을 사용해 고대비 영역에서는 특히 $E_{\text{max}}(x_{00}) > \delta / \epsilon$일 경우 플로우 편향이 추가 편향을 초월할 수 있음을 보여준다.

실험 결과

연구 질문

RQ1어떤 이미지 조건에서 플로우 기반 편향이 크기 $\delta$의 추가 편향이 달성할 수 있는 최대 변화를 초월하는가?
RQ2어떤 조건에서 추가 편향이 매개수 $\epsilon$를 가진 플로우 편향이 달성할 수 있는 최대 변화를 초월하는가?
RQ3추가 편향과 플로우 편향의 조합이 개별적으로는 도달할 수 없는 적대적 예제를 생성할 수 있는가?
RQ4실제 데이터셋(CIFAR-10 및 ImageNet)에서 저대비 및 고대비 이미지 영역은 얼마나 흔한가?
RQ5이 두 가지 적대적 공격 유형 간의 인지적 왜곡 차이에 대한 이론적 근거는 무엇인가?

주요 결과

만약 $C_{\text{max}}(p) < \delta / (2\epsilon)$이면, 픽셀 $p$에 대한 추가 편향은 매개수 $\epsilon$를 가진 어떤 플로우 편향보다도 더 큰 변화를 유도한다.
만약 $E_{\text{max}}(q) \geq \delta / \epsilon$이면, 픽셀 $q$에 대한 플로우 편향은 크기 $\delta$의 어떤 추가 편향보다도 더 큰 변화를 유도할 수 있다.
두 공격 유형의 조합은 저대비 및 고대비 영역에서의 상호보완적 강점을 통해 개별적으로는 도달할 수 없는 적대적 예제를 생성한다.
384장의 CIFAR-10 이미지에 대한 실증 평가 결과, 모든 이미지에 저대비 조건을 만족하는 픽셀과 고대비 조건을 만족하는 픽셀이 적어도 하나 이상 존재함을 확인하였다.
이론적 프레임워크는 병합된 공격(예: $\delta + \text{flow}$)이 단일 유형의 공격보다 더 효과적인 이유를 설명하며, 이는 서로 다른 이미지 구조를 이용하기 때문이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.