QUICK REVIEW

[논문 리뷰] Bypassing Feature Squeezing by Increasing Adversary Strength

Yash Sharma, Pin‐Yu Chen|arXiv (Cornell University)|2018. 03. 27.

Adversarial Robustness in Machine Learning참고 문헌 12인용 수 31

한 줄 요약

이 논문은 특성 스러움이라는 방어 기법(다양한 입력 변환을 조합하여 적대적 예제를 탐지하는 방식)이 C&W 및 EAD 공격에서 더 높은 신뢰도 마진($κ$)을 통해 공격자의 강도를 높이고, I-FGSM 공격에서 더 큰 $L_\infty$ 변형($varepsilon$)을 사용함으로써 우회될 수 있음을 보여준다. MNIST 및 CIFAR-10에서 시각적 왜곡이 최소화된 적대적 예제가 통합 탐지 프레임워크에 대해 거의 100%의 공격 성공률를 기록함으로써, 방어 기법이 효과를 유지하려면 더 강력한 적대적 설정에 대해 검증되어야 함을 시사한다.

ABSTRACT

Feature Squeezing is a recently proposed defense method which reduces the search space available to an adversary by coalescing samples that correspond to many different feature vectors in the original space into a single sample. It has been shown that feature squeezing defenses can be combined in a joint detection framework to achieve high detection rates against state-of-the-art attacks. However, we demonstrate on the MNIST and CIFAR-10 datasets that by increasing the adversary strength of said state-of-the-art attacks, one can bypass the detection framework with adversarial examples of minimal visual distortion. These results suggest for proposed defenses to validate against stronger attack configurations.

연구 동기 및 목표

특성 스러움 방어 기법이 더 강력한 적대적 공격에 대해 얼마나 견고한지 평가하기 위해.
C&W 및 EAD 공격에서 신뢰도 마진($(\kappa$)을 증가시켜 통합 탐지 프레임워크를 우회할 수 있는지 조사하기 위해.
I-FGSM 공격에서 더 큰 $L_\infty$ 변형($varepsilon$)이 특성 스러움 방어 기법에 대해 얼마나 효과적인지 평가하기 위해.
더 강력한 공격 설정 하에서 시각적으로 왜곡이 최소화된 적대적 예제가 탐지 회피가 가능한지 확인하기 위해.
시각적 유사성을 유지하면서 공격자의 최대 강도에 대해 방어 기법을 검증할 것을 주장하기 위해.

제안 방법

연구는 $L_1$ 및 $L_2$ 왜곡을 최소화하기 위해 유연한-넷 정규화를 적용한 C&W $L_2$ 공격의 일반화인 EAD 공격을 사용한다.
신뢰도 매개변수 $κ$를 체계적으로 증가시켜 목표 클래스와 비목표 클래스 확률 간의 간격을 높인다.
L_\infty 공격의 경우, 변형 크기를 제어하기 위해 I-FGSM 방법을 사용하고 $varepsilon$ 값을 점차 증가시킨다.
통합 탐지 프레임워크는 색상 비트 깊이 감소 및 스무딩(국소 및 비국소)과 같은 여러 특성 스러머를 조합하며, 원본 및 스러운 입력의 예측을 비교하기 위해 $L_1$ 노름을 사용한다.
탐지 기준은 Xu 등(2017)에서 정의한 바와 같이 원본 및 스러운 모델 출력 간의 $L_1$ 거리에 기반하여 설정된다.
실험은 MNIST 및 CIFAR-10의 사전 학습된 모델을 대상으로 하며, 100장의 테스트 이미지를 사용하고, 비목표 및 목표 공격(다음 클래스 및 최소 가능성 클래스 대상)을 모두 수행한다.

실험 결과

연구 질문

RQ1C&W 및 EAD 공격에서 신뢰도 마진($(\kappa$)을 증가시키면 통합 특성 스러움 탐지 프레임워크를 우회할 수 있는가?
RQ2I-FGSM 공격에서 $L_\infty$ 변형($varepsilon$)을 증가시키면 시각적 왜곡이 최소화된 상태에서 탐지 회피가 가능한가?
RQ3더 강력한 공격 강도로 생성된 적대적 예제는 여전히 시각적으로 인지하기 어려운가?
RQ4더 강력한 공격 설정 하에서 실패하는 경우 특성 스러움 방어 기법을 견고하다고 볼 수 있는가?
RQ5시각적 유사성을 유지하면서 공격자의 최대 강도로 적대적 예제를 제작할 경우 통합 탐지 프레임워크는 어느 정도 붕괴되는가?

주요 결과

MNIST에서 EAD 공격의 $\kappa$를 40으로 증가시켜 통합 탐지기에서 100% 공격 성공률(ASR)을 달성했으며, $L_\infty$ 왜곡은 0.997이었고, 이는 시각적 왜곡이 최소임을 시사한다.
CIFAR-10에서 EAD 공격의 $\kappa$를 70으로 증가시켜 100% ASR를 달성했으며, $L_\infty$ 왜곡은 0.502로 시각적 변화가 거의 없었음을 보여주었다.
I-FGSM 공격의 경우, MNIST에서는 $\epsilon$을 0.3으로, CIFAR-10에서는 $\epsilon$을 0.008로 증가시켜 100% ASR를 달성했지만, 시각적 왜곡이 최소화된 것은 CIFAR-10에서만 관찰되었다.
EAD 공격는 C&W $L_2$ 공격보다 낮은 $\kappa$ 값에서 $L_1$ 및 $L_2$ 왜곡을 더 잘 최소화하여 탐지에 대한 저항력이 뛰어나다는 점에서 뛰어난 성능을 보였다.
목표 공격 설정에서 MNIST에서 EAD 공격의 $\kappa$를 40으로 증가시켜 100% ASR를 달성했으며, $L_\infty$ 왜곡은 0.939였고, 이는 강력한 공격 하에서도 우회 능력이 있음을 확인했다.
결과적으로 특성 스러움 방어 기법은 적대적 예제가 원본 입력과 시각적으로 유사한 경우에도 더 강력한 공격자에 대비하여 테스트될 경우 취약하다는 점을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.