QUICK REVIEW

[논문 리뷰] Deep Defense: Training DNNs with Improved Adversarial Robustness

Ziang Yan, Yiwen Guo|arXiv (Cornell University)|2018. 02. 23.

Adversarial Robustness in Machine Learning참고 문헌 8인용 수 52

한 줄 요약

Deep Defense는 perturbation 기반 정규화기를 분류기 학습 목표에 통합하여 DNN의 악의적 공격에 대한 강인성을 향상시키면서 양성 데이터에 대한 정확도를 유지합니다.

ABSTRACT

Despite the efficacy on a variety of computer vision tasks, deep neural networks (DNNs) are vulnerable to adversarial attacks, limiting their applications in security-critical systems. Recent works have shown the possibility of generating imperceptibly perturbed image inputs (a.k.a., adversarial examples) to fool well-trained DNN classifiers into making arbitrary predictions. To address this problem, we propose a training recipe named "deep defense". Our core idea is to integrate an adversarial perturbation-based regularizer into the classification objective, such that the obtained models learn to resist potential attacks, directly and precisely. The whole optimization problem is solved just like training a recursive network. Experimental results demonstrate that our method outperforms training with adversarial/Parseval regularizations by large margins on various datasets (including MNIST, CIFAR-10 and ImageNet) and different DNN architectures. Code and models for reproducing our results are available at https://github.com/ZiangYan/deepdefense.pytorch

연구 동기 및 목표

보안이 중요한 작업에서 악의적 취약점을 다루어 로버스트한 DNN을 확보한다.
악의적 예로부터 직접 학습하는 perturbation 기반 정규화를 제안한다.
양성 데이터에 대한 정확도 유지나 개선과 함께 공격자에 대한 저항성을 높인다.
효율적 최적화를 가능하게 하는 미분 가능하고 네트워크 기반의 형태를 제공한다.

제안 방법

악의적扰动의 노름을 벌주는 정규화된 목표를 형태화한다.
Delta_x를 계산하기 위해 DeepFool 기반 모듈로 adversarial perturbations를 근사한다.
역방향/재귀 신경망으로扰动 계산을 표현하여 공동 최적화를 달성한다.
더 어렵게 공격되어도 올바르게 분류되는 샘플에 초점을 맞추기 위해 R이라는 지수형 함수를 사용한다.
정확히 분류된 사례와 오분류된 사례를 샘플별 가중치를 통해 균형 있게 조정한다.
전혀 처음부터 학습하기보다 기존 모델을 미세조정하여 다양한 아키텍처 간 일반화 가능성을 평가한다.

실험 결과

연구 질문

RQ1훈련 중 perturbation 기반 정규화를 도입하면 표준 데이터셋과 아키텍처에서 악의적 공격에 대한 강건성이 향상되는가?
RQ2Deep Defense가 MNIST, CIFAR-10, ImageNet에서 양성 집합의 정확도를 악화시키지 않으면서 강인성을 개선할 수 있는가?
RQ3이 방법이 DeepFool 및 FGS와 같은 강한 공격 하에서 adversarial training 및 Parseval training과 어떻게 비교되는가?
RQ4하이퍼파라미터와 계층별 정규화가 강건성과 정확도에 어떤 영향을 미치는가?
RQ5대규모 네트워크와 데이터셋에서도 계산적으로 실행 가능성을 유지하며 확장 가능한가?

주요 결과

Deep Defense는 MNIST, CIFAR-10, ImageNet 전반에 걸쳐 로버스트니스 측정치에서 경쟁 방어책을 지속적으로 상회하고 양성 정확도를 유지하거나 향상시킨다.
MNIST에서 Ours는 98.65%의 양성 정확도와 Reference의 98.31%에 비해 DeepFool 및 FGS 공격에 훨씬 더 높은 강인성을 보인다.
LeNet에서 Ours는 양성 정확도를 99.34%로 끌어올리고 Adversarial/Parseval 기준선보다 강한 강건성을 달성한다.
CIFAR-10(ConvNet, NIN)에서 Ours는 양성 정확도가 더 높고 강건성도 현저히 향상되어 예: 두 네트워크의 Acc.@1.0ε_ref가 각각 50.00%에 달한다.
ImageNet(AlexNet, ResNet)에서 Ours는 양성 정확도 측면에서 소폭 개선을 보이고 DeepFool 강건성이 약 1.5배 향상된다.
지수 가중치 R을 가진 하이브리드 정규화기가 취약하고 올바르게 분류된 샘플에 초점을 맞추며 전체 성능을 해치지 않는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.