QUICK REVIEW

[논문 리뷰] EAD: Elastic-Net Attacks to Deep Neural Networks via Adversarial Examples

Pin‐Yu Chen, Yash Sharma|arXiv (Cornell University)|2017. 09. 13.

Adversarial Robustness in Machine Learning참고 문헌 29인용 수 65

한 줄 요약

본 논문은 엘라스틱넷_regularized 최적화를 통해 적대적 예제 생성 문제를 형식화하고, L1 지향 교란(EAD)을 생성하여 L2/L inf 공격과의 효과에서 경쟁하고 전이성 및 적대적 학습과의 호환성을 향상시킨다.

ABSTRACT

Recent studies have highlighted the vulnerability of deep neural networks (DNNs) to adversarial examples - a visually indistinguishable adversarial image can easily be crafted to cause a well-trained model to misclassify. Existing methods for crafting adversarial examples are based on $L_2$ and $L_\infty$ distortion metrics. However, despite the fact that $L_1$ distortion accounts for the total variation and encourages sparsity in the perturbation, little has been developed for crafting $L_1$-based adversarial examples. In this paper, we formulate the process of attacking DNNs via adversarial examples as an elastic-net regularized optimization problem. Our elastic-net attacks to DNNs (EAD) feature $L_1$-oriented adversarial examples and include the state-of-the-art $L_2$ attack as a special case. Experimental results on MNIST, CIFAR10 and ImageNet show that EAD can yield a distinct set of adversarial examples with small $L_1$ distortion and attains similar attack performance to the state-of-the-art methods in different attack scenarios. More importantly, EAD leads to improved attack transferability and complements adversarial training for DNNs, suggesting novel insights on leveraging $L_1$ distortion in adversarial machine learning and security implications of DNNs.

연구 동기 및 목표

DNN의 강건성 격차를 이해하기 위해 L1 기반 적대적 교란의 탐구를 자극한다.
L1과 L2 페널티를 결합해 시각적으로 유사하면서도 희소한 교란을 생성하는 새로운 공격(EAD)을 제안한다.
EAD가 성공률 면에서 최첨단 L2 공격과 대등하되 고유한 교란 특성을 제공함을 보여준다.
L1 지향 공격을 사용할 때 적대적 학습과 함께 향상된 전이성과 보완 효과를 시연한다.

제안 방법

대상형 적대적 공격을 엘라스틱넷 규제 최적화로 형식화한다: c·f(x,t) + β·||x−x0||1 + ||x−x0||2^2를 최소화하되 x∈[0,1]^p.
L1 항을 통해 교란의 희소성을, L2 항을 통해 안정성을 촉진하기 위해 엘라스틱넷 손실을 사용한다.
로짓 기반의 C&W 손실 f(x,t)를 채택하여 신뢰도 매개변수 κ로 타깃 레이블 t를 유도한다.
비미분 가능 문제를 반복 축소-임계 알고리즘(ISTA)과 그 빠른 변형(FISTA)으로 해결한다.
상자 제약에서 L1 페널티를 다루기 위한 특수 축소-임계 연산자 Sβ를 도입한다.
최종 적대적 예제를 선택하기 위한 EN-rule(엘라스틱넷 목적함수)과 L1-rule(최소 L1 왜곡)을 비교한다.

실험 결과

연구 질문

RQ1엘라스틱넷 정규화가 L1 왜곡이 작으면서도 L2/L∞ 공격과 동일하게 효과적인 적대적 예제를 생성할 수 있는가?
RQ2L1 페널티의 도입이 공격의 전이성과 방어(예: 방어적 증류(defensive distillation) 및 적대적 학습)에 대한 강인성에 어떤 영향을 미치는가?
RQ3EAD를 사용할 때 L1 왜곡과 L2/L∞ 왜곡 간의 트레이드오프는 무엇이며 의사결정 규칙은 이를 어떻게 좌우하는가?
RQ4EAD가 이전의 L2 기반 방법에 비해 방어적 증류된 모델로의 공격 전이성을 향상시키는가?

주요 결과

EAD는 다양한 설정에서 MNIST, CIFAR10 및 ImageNet 전반에 걸쳐 평균적으로 100%의 공격 성공률을 달성한다.
EAD는 L1을 가진 I-FGM보다 현저히 낮은 L1 왜곡의 적대적 예제를 생성할 수 있는데(MNIST, CIFAR10, ImageNet에서 약 47%–87% 감소).
EAD는 방어적 증류 네트워크로의 전이성을 향상시키며, 적절한 전이성 매개변수 κ일 때 MNIST에서 거의 99%에 근접한 ASR에 도달하고 일부 설정에서 C&W 공격보다 우수하다.
L1 페널티(β>0)를 포함하면 적대적 학습을 보완할 수 있는 고유한 교란 집합이 형성되어 C&W 공격과 결합할 때 강인성이 향상된다.
L1-rule은 L1 왜곡을 추가로 줄일 수 있지만 L2 및 Linf 왜곡은 증가시킬 수 있으며 여전히 100% ASR을 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.