QUICK REVIEW

[논문 리뷰] Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples

Anish Athalye, Nicholas Carlini|arXiv (Cornell University)|2018. 02. 01.

Adversarial Robustness in Machine Learning참고 문헌 34인용 수 1,165

한 줄 요약

논문은 obfuscated gradients를 정의하고 세 가지 유형으로 분류하며, gradient masking에 의존하는 방어를 우회하기 위한 공격 기법들을 제시하고 이를 ICLR 2018의 비인증 방어들에 대해 평가한다.

ABSTRACT

We identify obfuscated gradients, a kind of gradient masking, as a phenomenon that leads to a false sense of security in defenses against adversarial examples. While defenses that cause obfuscated gradients appear to defeat iterative optimization-based attacks, we find defenses relying on this effect can be circumvented. We describe characteristic behaviors of defenses exhibiting the effect, and for each of the three types of obfuscated gradients we discover, we develop attack techniques to overcome it. In a case study, examining non-certified white-box-secure defenses at ICLR 2018, we find obfuscated gradients are a common occurrence, with 7 of 9 defenses relying on obfuscated gradients. Our new attacks successfully circumvent 6 completely, and 1 partially, in the original threat model each paper considers.

연구 동기 및 목표

적대적 예에 대한 방어에서 잘못된 견고성의 원인으로 obfuscated gradients를 식별한다.
세 가지 유형의 obfuscated gradients를 특징화하고 이를 극복하기 위한 공격을 개발한다.
현행 ICLR 2018 방어의 실증적 평가를 통해 전파력과 우회 성공 여부를 측정한다.
우수한 재현성을 가진 벤치마크와 방어/공격 구현을 제공하여 견고한 평가를 가능하게 한다.

제안 방법

obfuscated gradients와 이를 세 가지 분류로 정의한다: shattered, stochastic, vanishing/exploding gradients.
Backwards Pass Differentiable Approximation(BPDA)을 개발하여 비미분 또는 비유용하게 미분 가능한 계층을 통과하는 그래디언트를 근사한다.
무작위화된 방어를 통해 그래디언트를 계산하기 위해 Expectation Over Transformation(EOT)을 사용한다.
그래디언트 폭주/소멸 문제를 피하기 위해 재매개화를 적용한다.
EOT와 BPDA를 통해 그래디언트를 추정하여 무작위 방어를 공격한다.
재현성을 평가하고 평가의 함정들을 파악하기 위해 방어 및 공격을 재현한다.

실험 결과

연구 질문

RQ1방어가 반복 공격에 대해 견고해 보이도록 obfuscated gradients에 일반적으로 의존하는가?
RQ2새로운 공격 기법(BPDA, EOT, 재매개화)이 원-threat 모델 하에서 이러한 방어를 우회할 수 있는가?
RQ3현대 방어들 가운데, 특히 ICLR 2018의 방어들 사이에서 obfuscated gradients의 만연 정도는 어느 수준인가?
RQ4연구자들이 적대적 견고성을 정직하고 재현 가능하게 평가하기 위해 어떤 최선의 관행을 채택해야 하는가?

주요 결과

방어	데이터셋	거리	정확도
Buckman et al. (2018)	CIFAR	0.031 ( ∞ )	0%*
Ma et al. (2018)	CIFAR	0.031 ( ∞ )	5%
Guo et al. (2018)	ImageNet	0.005 ( 2 )	0%*
Dhillon et al. (2018)	CIFAR	0.031 ( ∞ )	0%
Xie et al. (2018)	ImageNet	0.031 ( ∞ )	0%*
Song et al. (2018)	CIFAR	0.031 ( ∞ )	9%*
Samangouei et al. (2018)	MNIST	0.005 ( 2 )	55%**
Madry et al. (2018)	CIFAR	0.031 ( ∞ )	47%
Na et al. (2018)	CIFAR	0.015 ( ∞ )	15%

Obfuscated gradients는 흔하다: 9개 중 7개의 ICLR 2018 방어가 gradient masking에 의존한다.
제안된 공격은 6개의 방어를 완전히 우회하고 1개를 주어진 위협 모델 하에서 부분적으로 우회한다.
BPDA, EOT, 재매개화는 비미분적이거나 무작위화되거나 깊이가 늘어난 방어에 대해 효과적으로 적대적 예를 생성한다.
적대적 학습은 특정 obfuscated-gradient 방어에 여전히 취약하며 많은 평가가 현실적인 위협 모델을 반영하지 못한다.
저자들은 방어와 공격의 재현 가능한 구현을 제공하여 신뢰할 수 있는 평가를 촉진한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.