QUICK REVIEW

[논문 리뷰] MagNet and "Efficient Defenses Against Adversarial Attacks" are Not Robust to Adversarial Examples

Nicholas Carlini, David Wagner|arXiv (Cornell University)|2017. 11. 22.

Adversarial Robustness in Machine Learning참고 문헌 11인용 수 140

한 줄 요약

이 논문은 MagNet, Efficient Defenses, 및 APE-GAN이 적대적 예에 대해 강건하지 않으며, 전이 가능한 공격이 약간의 왜곡 증가로 이 방어들을 무력화할 수 있음을 보여줍니다.

ABSTRACT

MagNet and "Efficient Defenses..." were recently proposed as a defense to adversarial examples. We find that we can construct adversarial examples that defeat these defenses with only a slight increase in distortion.

연구 동기 및 목표

Assess robustness of MagNet, Efficient Defenses, and APE-GAN against adversarial examples on MNIST and CIFAR-10.

제안 방법

Carlini and Wagner’s L2 공격을 사용하여 방어자 복제본에 대해 전이 가능한 적대적 예를 생성한다.
감지기/리폼기로의 시뮬레이션을 위해 로컬 자동 인코더를 다수 훈련시켜 방어를 모사하고 전이 공격을 가능하게 한다.
분류기 손실과 감지기/리폼어 손실을 포함하는 적대적 목적함수를 계산하여 전이 가능성을 극대화한다.
MNIST 및 CIFAR-10에서 대상 공격의 성공률과 L2 왜곡을 평가한다.
재구성과 관련하여 왜 APE-GAN이 실패하는지 reconstruction 전후의 거리를 비교하여 분석한다.

실험 결과

연구 질문

RQ1MagNet, Efficient Defenses, 및 APE-GAN이 MNIST와 CIFAR-10에서 전이 가능한 적대적 예에 견딜 수 있는가?
RQ2공격자가 방어의 자신의 복제본을 학습해 보호된 모델을 무력화할 수 있는가?
RQ3이러한 방어에 대해 성공적인 대상형 적대적 예를 만들기 위한 왜곡은 어느 정도인가?
RQ4왜 APE-GAN 재구성이 적대적 교란을 제거하는 데 실패하는가?

주요 결과

MagNet은 L2 왜곡이 약 2.25(MNIST) 및 0.45(CIFAR) 정도인 비공개(그레이박스) 공격 성공률 약 99%~100%를 보인다.
적대적 공격에 대한 Efficient Defenses는 비슷한 왜곡에서 100% 공격 성공률을 달성한다( MNIST 약 2.04–2.66; CIFAR 약 0.56–0.67 ).
APE-GAN도 100% 성공과 2.04–0.72의 왜곡 범위에서 MNIST 및 CIFAR에 대해 강건한 방어를 제공하지 못한다.
방어의 복제본에서 실제 방어 모델로 적대적 예를 전이시키면 높은 공격 성공률이 가능해져, 약한 그레이박스 강건성을 강조한다.
세 가지 방어 모두 불안정한 모델에 비해 평균적으로 약 30% 수준의 왜곡 증가라는 보통의 강건성 개선만 제공한다.
회복된 적대적 예는 원래의 교란보다 더 크게 벗어날 수 있어, 재구성이 적대적 신호를 신뢰성 있게 중화하지 못함을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.