QUICK REVIEW

[논문 리뷰] Model Agnostic Dual Quality Assessment for Adversarial Machine Learning and an Analysis of Current Neural Networks and Defenses.

Danilo Vargas, Shashank Kotyan|arXiv (Cornell University)|2019. 06. 14.

Adversarial Robustness in Machine Learning인용 수 6

한 줄 요약

이 논문은 적대적 기계학습 평가에서의 편향을 해결하기 위해 모델에 종속되지 않는 이중 품질 평가 프레임워크를 제안한다. 이는 내성적 복잡성 수준과 기존 One-Pixel 공격의 12%에 해당하는 편향을 사용하는 새로운 $L_\infty$ 블랙박스 공격을 도입한다. 연구 결과, 현재의 모델과 방어 기법은 모든 복잡성 수준에서 여전히 취약하며, $L_1$/$L_2$ 메트릭만으로는 위조된 적대적 샘플을 탐지하는 데 부족하다는 점을 드러낸다.

ABSTRACT

There exists a vast number of adversarial attacks and defences for machine learning algorithms of various types which makes assessing the robustness of algorithms a daunting task. To make matters worse, there is an intrinsic bias in these adversarial algorithms. Here, we organise the problems faced: a) Model Dependence, b) Insufficient Evaluation, c) False Adversarial Samples, and d) Perturbation Dependent Results). Based on this, we propose a model agnostic dual quality assessment method, together with the concept of robustness levels to tackle them. We validate the dual quality assessment on state-of-the-art neural networks (WideResNet, ResNet, AllConv, DenseNet, NIN, LeNet and CapsNet) as well as adversarial defences for image classification problem. We further show that current networks and defences are vulnerable at all levels of robustness. The proposed robustness assessment reveals that depending on the metric used (i.e., $L_0$ or $L_\infty$), the robustness may vary significantly. Hence, the duality should be taken into account for a correct evaluation. Moreover, a mathematical derivation, as well as a counter-example, suggest that $L_1$ and $L_2$ metrics alone are not sufficient to avoid spurious adversarial samples. Interestingly, the threshold attack of the proposed assessment is a novel $L_\infty$ black-box adversarial method which requires even less perturbation than the One-Pixel Attack (only $12\%$ of One-Pixel Attack's amount of perturbation) to achieve similar results. Code is available at this http URL.

연구 동기 및 목표

적대적 기계학습 평가의 내재된 편향, 즉 모델 종속성, 평가 부족, 위조된 적대적 샘플, 편향 의존 결과 등을 해결하기 위해.
다양한 신경망 및 방어 기법 간에서 일관되고 종합적인 복잡성 평가를 가능하게 하는 모델에 종속되지 않는 프레임워크를 개발하기 위해.
다양한 적대적 조건 하에서 모델 성능을 평가하기 위해 복잡성 수준의 개념을 도입하기 위해.
현재 최신 모델과 방어 기법이 모든 복잡성 수준에서 여전히 취약하다는 것을 입증하기 위해.
$L_1$ 및 $L_2$ 메트릭만으로는 신뢰할 수 있는 적대적 샘플 탐지에 부족하며, $L_0$ 및 $L_\infty$ 메트릭을 사용한 이중 평가의 필요성을 검증하기 위해.

제안 방법

다양한 적대적 편향 특성을 캡처하기 위해 $L_0$ 및 $L_\infty$ 노름을 모두 사용하는 복잡성 평가를 위한 이중 품질 평가 방법을 제안한다.
편향 강도의 다양성에 따라 모델 행동을 체계적으로 분석하기 위해 복잡성 수준의 개념을 도입한다.
One-Pixel 공격가 사용하는 편향의 12%만으로도 유사한 성공률을 달성할 수 있는 새로운 $L_\infty$ 블랙박스 적대적 공격을 개발한다.
$L_1$ 및 $L_2$ 메트릭만으로는 위조된 적대적 샘플을 방지할 수 없음을 입증하기 위해 수학적 유도와 반례를 활용한다.
WideResNet, ResNet, AllConv, DenseNet, NIN, LeNet, CapsNet 등의 최신 모델을 대상으로 프레임워크를 검증한다.
다양한 아키텍처 간에 모델에 종속되지 않는 평가를 보장하기 위해 이미지 분류에서 여러 적대적 방어 기법을 평가하기 위해 평가를 적용한다.

실험 결과

연구 질문

RQ1이중 품질 평가 프레임워크는 단일 메트릭 접근 방식에 비해 적대적 복잡성 평가를 어떻게 향상시키는가?
RQ2현재 최신 신경망은 다양한 복잡성 수준에서 얼마나 취약한가?
RQ3수학적 분석에 따르면 $L_1$ 및 $L_2$ 메트릭만으로는 위조된 적대적 샘플 생성을 방지할 수 있는가?
RQ4제안된 $L_\infty$ 블랙박스 공격은 One-Pixel 공격과 같은 기존 방법에 비해 편향 효율성이 어떻게 뛰어나게 되는가?
RQ5이중 평가에서 $L_0$와 $L_\infty$ 노름을 사용할 경우 복잡성에 있어 뚜렷한 차이가 드러나는가?

주요 결과

제안된 이중 품질 평가 프레임워크는 $L_0$ 또는 $L_\infty$ 메트릭을 사용하는지에 따라 복잡성이 크게 달라지는 것으로 드러나, 이중 평가의 필요성을 강조한다.
새로운 $L_\infty$ 블랙박스 공격는 One-Pixel 공격와 유사한 성공률을 달성하지만, 사용하는 편향의 12%만으로도 가능하여 더 높은 효율성을 보인다.
현재 최신 모델과 방어 기법은 모든 복잡성 수준에서 여전히 취약하며, 적대적 복잡성의 지속적인 격차를 시사한다.
수학적 분석과 반례를 통해 $L_1$ 및 $L_2$ 메트릭만으로는 위조된 적대적 샘플을 방지할 수 없음을 입증한다.
이중 평가 프레임워크는 특히 복잡성 측정에 단일 노름에 의존할 경우 발생하는 평가 관행의 일관성 없는 점을 드러낸다.
프레임워크는 모델에 종속되지 않으며 ResNet, DenseNet, CapsNet 등의 다양한 아키텍처에 성공적으로 적용되어 광범위한 적용 가능성을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.