Skip to main content
QUICK REVIEW

[논문 리뷰] EAD: Elastic-Net Attacks to Deep Neural Networks via Adversarial Examples

Pin‐Yu Chen, Yash Sharma|arXiv (Cornell University)|2017. 09. 13.
Adversarial Robustness in Machine Learning참고 문헌 29인용 수 65
한 줄 요약

본 논문은 엘라스틱넷_regularized 최적화를 통해 적대적 예제 생성 문제를 형식화하고, L1 지향 교란(EAD)을 생성하여 L2/L inf 공격과의 효과에서 경쟁하고 전이성 및 적대적 학습과의 호환성을 향상시킨다.

ABSTRACT

Recent studies have highlighted the vulnerability of deep neural networks (DNNs) to adversarial examples - a visually indistinguishable adversarial image can easily be crafted to cause a well-trained model to misclassify. Existing methods for crafting adversarial examples are based on $L_2$ and $L_\infty$ distortion metrics. However, despite the fact that $L_1$ distortion accounts for the total variation and encourages sparsity in the perturbation, little has been developed for crafting $L_1$-based adversarial examples. In this paper, we formulate the process of attacking DNNs via adversarial examples as an elastic-net regularized optimization problem. Our elastic-net attacks to DNNs (EAD) feature $L_1$-oriented adversarial examples and include the state-of-the-art $L_2$ attack as a special case. Experimental results on MNIST, CIFAR10 and ImageNet show that EAD can yield a distinct set of adversarial examples with small $L_1$ distortion and attains similar attack performance to the state-of-the-art methods in different attack scenarios. More importantly, EAD leads to improved attack transferability and complements adversarial training for DNNs, suggesting novel insights on leveraging $L_1$ distortion in adversarial machine learning and security implications of DNNs.

연구 동기 및 목표

  • DNN의 강건성 격차를 이해하기 위해 L1 기반 적대적 교란의 탐구를 자극한다.
  • L1과 L2 페널티를 결합해 시각적으로 유사하면서도 희소한 교란을 생성하는 새로운 공격(EAD)을 제안한다.
  • EAD가 성공률 면에서 최첨단 L2 공격과 대등하되 고유한 교란 특성을 제공함을 보여준다.
  • L1 지향 공격을 사용할 때 적대적 학습과 함께 향상된 전이성과 보완 효과를 시연한다.

제안 방법

  • 대상형 적대적 공격을 엘라스틱넷 규제 최적화로 형식화한다: c·f(x,t) + β·||x−x0||1 + ||x−x0||2^2를 최소화하되 x∈[0,1]^p.
  • L1 항을 통해 교란의 희소성을, L2 항을 통해 안정성을 촉진하기 위해 엘라스틱넷 손실을 사용한다.
  • 로짓 기반의 C&W 손실 f(x,t)를 채택하여 신뢰도 매개변수 κ로 타깃 레이블 t를 유도한다.
  • 비미분 가능 문제를 반복 축소-임계 알고리즘(ISTA)과 그 빠른 변형(FISTA)으로 해결한다.
  • 상자 제약에서 L1 페널티를 다루기 위한 특수 축소-임계 연산자 Sβ를 도입한다.
  • 최종 적대적 예제를 선택하기 위한 EN-rule(엘라스틱넷 목적함수)과 L1-rule(최소 L1 왜곡)을 비교한다.

실험 결과

연구 질문

  • RQ1엘라스틱넷 정규화가 L1 왜곡이 작으면서도 L2/L∞ 공격과 동일하게 효과적인 적대적 예제를 생성할 수 있는가?
  • RQ2L1 페널티의 도입이 공격의 전이성과 방어(예: 방어적 증류(defensive distillation) 및 적대적 학습)에 대한 강인성에 어떤 영향을 미치는가?
  • RQ3EAD를 사용할 때 L1 왜곡과 L2/L∞ 왜곡 간의 트레이드오프는 무엇이며 의사결정 규칙은 이를 어떻게 좌우하는가?
  • RQ4EAD가 이전의 L2 기반 방법에 비해 방어적 증류된 모델로의 공격 전이성을 향상시키는가?

주요 결과

  • EAD는 다양한 설정에서 MNIST, CIFAR10 및 ImageNet 전반에 걸쳐 평균적으로 100%의 공격 성공률을 달성한다.
  • EAD는 L1을 가진 I-FGM보다 현저히 낮은 L1 왜곡의 적대적 예제를 생성할 수 있는데(MNIST, CIFAR10, ImageNet에서 약 47%–87% 감소).
  • EAD는 방어적 증류 네트워크로의 전이성을 향상시키며, 적절한 전이성 매개변수 κ일 때 MNIST에서 거의 99%에 근접한 ASR에 도달하고 일부 설정에서 C&W 공격보다 우수하다.
  • L1 페널티(β>0)를 포함하면 적대적 학습을 보완할 수 있는 고유한 교란 집합이 형성되어 C&W 공격과 결합할 때 강인성이 향상된다.
  • L1-rule은 L1 왜곡을 추가로 줄일 수 있지만 L2 및 Linf 왜곡은 증가시킬 수 있으며 여전히 100% ASR을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.