[논문 리뷰] Robustness Assessment for Adversarial Machine Learning: Problems, Solutions and a Survey of Current Neural Networks and Defenses
이 논문은 적대적 기계학습에서의 강건성 평가 과제를 해결하기 위해 모델에 종속되지 않는 이중 $L_0$ 및 $L_\infty$ 품질 평가 방법을 제안한다. 이는 현재의 모델과 방어 기법이 모든 강건성 수준에서 여전히 취약하다는 것을 드러내며, 강건성 평가 결과가 사용된 메트릭에 따라 크게 달라지며, One-Pixel 공격의 12%에 불과한 편향을 요구하는 새로운 $L_\infty$ 블랙박스 공격을 도입한다.
In adversarial machine learning, there are a huge number of attacks of various types which evaluates robustness for new models and defences a daunting task. To make matters worse, there is an inherent bias in attacks and defences. Here, we organize the problems faced (model dependence, insufficient evaluation, false adversarial samples and perturbation dependent results) and propose a model agnostic dual ($L_0$ and $L_\infty$) quality assessment method together with the concept of robustness levels to tackle them. We validate the dual quality assessment on state-of-the-art models (WideResNet, ResNet, AllConv, DenseNet, NIN, LeNet and CapsNet) as well as the current hardest defences proposed at ICLR 2018 and the widely known adversarial training, showing that current models and defences are vulnerable in all levels of robustness. The robustness assessment show that depending on the metric used (i.e., $L_0$ or $L_\infty$) the robustness may change significantly and therefore duality should be taken into account for a correct assessment. Moreover, a mathematical derivation, as well as a counterexample, suggest that $L_1$ and $L_2$ metrics alone are not enough to avoid false adversarial samples. Interestingly, a by-product of the assessment proposed is a novel $L_\infty$ black-box method which requires even less perturbation than the One-Pixel Attack (only 12\% of One-Pixel Attack's amount of perturbation) to achieve similar results. Thus, this paper elucidates the problems of robustness evaluation, proposes a dual quality assessment to tackle them as well as survey the robustness of current models and defences. Code available at http://bit.ly/DualQualityAssessment.
연구 동기 및 목표
- 적대적 공격과 방어에 내재된 편향을 해결하여 강건성 평가의 신뢰성을 높이기 위해.
- 강건성 평가의 핵심 문제를 규명하기 위해: 모델 의존성, 평가 부족, 위조된 적대적 샘플, 편향된 편향에 의존하는 결과.
- 공정하고 포괄적인 모델 강건성 평가를 가능하게 하기 위해 이중 메트릭 기반의 품질 평가 프레임워크를 제안하기 위해.
- 제안된 방법을 사용하여 최신 모델(예: WideResNet, DenseNet)과 방어 기법(예: ICLR 2018 방어 기법, 적대적 훈련)의 강건성을 조사하기 위해.
- $L_1$ 및 $L_2$ 메트릭만으로는 위조된 적대적 샘플을 방지할 수 없으며, 이는 이중 평가의 필요성을 강조하기 위해.
제안 방법
- 모델에 종속되지 않는 이중 품질 평가를 위해 $L_0$(수정된 픽셀 수) 및 $L_\infty$(최대 픽셀 편향) 노름을 동시에 사용하여 강건성 평가를 수행한다.
- 다양한 편향 유형과 크기에서의 취약성에 따라 모델를 분류하기 위해 강건성 수준을 정의한다.
- 7개의 최신 모델(WideResNet, ResNet, AllConv, DenseNet, NIN, LeNet, CapsNet)과 고급 방어 기법에 대해 이중 평가를 적용하여 평가한다.
- $L_1$ 및 $L_2$ 메트릭이 위조된 적대적 샘플을 제거하지 못함을 수학적으로 증명하여 이중 평가의 필요성을 뒷받침한다.
- One-Pixel 공격와 유사한 성공률을 달성하면서도 그 12%에 불과한 편향 예산을 요구하는 새로운 $L_\infty$ 블랙박스 공격을 개발한다.
- 반례를 통해 $L_1$ 및 $L_2$ 메트릭이 위조된 적대적 샘플로 인해 잘못된 강건성 평가를 초래할 수 있음을 설명한다.
실험 결과
연구 질문
- RQ1$L_0$ 및 $L_\infty$ 강건성 메트릭은 모델 취약성 평가에서 어떻게 다를지, 그리고 왜 이중 평가가 필수적인가?
- RQ2현재 최신 모델과 방어 기법은 다양한 강건성 수준에서 얼마나 취약한가?
- RQ3$L_1$ 및 $L_2$ 메트릭만으로는 위조된 적대적 샘플을 방지할 수 있는가, 아니면 평가 편향을 유발하는가?
- RQ4$L_\infty$ 노름 하에서 성공적인 블랙박스 공격을 위해 필요한 최소 편향은 얼마이며, 이는 기존 방법과 비교해 어떻게 되는가?
- RQ5제안된 이중 평가 방법은 적대적 강건성 평가의 신뢰성과 공정성을 어떻게 향상시키는가?
주요 결과
- 모델에 종속되지 않는 방어 기법을 사용하더라도 현재의 모델과 방어 기법은 모든 강건성 수준에서 여전히 취약하다.
- 사용된 메트릭이 $L_0$인지 $L_\infty$인지에 따라 강건성 결과가 크게 달라지며, 이는 이중 평가의 필요성을 입증한다.
- 제안된 $L_\infty$ 블랙박스 공격는 One-Pixel 공격의 12%에 불과한 편향 예산으로도 유사한 성공률을 달성한다.
- 수학적 분석과 반례를 통해 $L_1$ 및 $L_2$ 메트릭만으로는 위조된 적대적 샘플을 방지할 수 없음을 입증한다.
- 이중 품질 평가 방법은 ICLR 2018의 방어 기법을 포함하여 널리 사용되는 모델과 방어 기법에서 이전에 발견되지 않은 취약성을 드러낸다.
- 평가 프레임워크는 기존 평가 방식의 내재된 편향을暴露하며, 더 포괄적이고 공정한 벤치마킹 접근법을 촉구한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.