QUICK REVIEW

[논문 리뷰] A Direct Approach to Robust Deep Learning Using Adversarial Networks

Huaxia Wang, Chun-Nam Yu|arXiv (Cornell University)|2019. 05. 23.

Adversarial Robustness in Machine Learning참고 문헌 34인용 수 48

한 줄 요약

이 논문은 생성적 적대적 네트워크(GAN) 프레임워크를 사용하여 적대적 노이즈를 모델링하는 새로운 강건한 딥 러닝 방어 기법을 제안한다. 생성 네트워크는 적대적 노이즈를 모델링하고, 분류 네트워크는 최소화 게임(minimax game)에서 훈련된다. 이 방법은 블랙박스 공격에 대해 최신 기술 수준의 성능을 달성하며, 앙상블 적대적 훈련 및 투영된 경사하강법(PGD) 방법과 동등하거나 이를 초월한다.

ABSTRACT

Deep neural networks have been shown to perform well in many classical machine learning problems, especially in image classification tasks. However, researchers have found that neural networks can be easily fooled, and they are surprisingly sensitive to small perturbations imperceptible to humans. Carefully crafted input images (adversarial examples) can force a well-trained neural network to provide arbitrary outputs. Including adversarial examples during training is a popular defense mechanism against adversarial attacks. In this paper we propose a new defensive mechanism under the generative adversarial network (GAN) framework. We model the adversarial noise using a generative network, trained jointly with a classification discriminative network as a minimax game. We show empirically that our adversarial network approach works well against black box attacks, with performance on par with state-of-art methods such as ensemble adversarial training and adversarial training with projected gradient descent.

연구 동기 및 목표

소규모이자 인지하기 어려운 적대적 편향으로 인해 깊이 신경망이 취약해지는 문제를 해결하기 위해.
모델의 아키텍처나 기울기 정보에 접근할 수 없는 공격자(블랙박스 공격)에 대해 잘 일반화되는 방어 메커니즘을 개발하기 위해.
사전 정의된 편향을 기반으로 한 적대적 재훈련에만 의존하지 않고 강건성을 향상시키기 위해.
학습 중에 적대적 노이즈를 생성 모델링을 통해 합성함으로써 강건성을 향상시키기 위한 방법을 탐색하기 위해.
앙상블 적대적 훈련 및 PGD 기반 훈련과 같은 최신 기술 수준의 방어 기법과 비교해도 성능이 떨어지지 않는 것을 달성하기 위해.

제안 방법

생성 네트워크는 적대적 노이즈 패턴을 모델링하도록 훈련되며, 현실적인 편향을 시뮬레이션한다.
분류 네트워크는 디스criminator 역할을 하여, 적대적 노이즈가 존재하는 입력이라도 정확히 분류할 수 있도록 학습된다.
두 네트워크는 표준 GAN과 유사한 최소화 게임(minimax game) 프레임워크에서 함께 훈련되며, 강건한 분류에 초점을 맞춘다.
생성 네트워크는 분류기를 속이기 위한 편향을 생성하고, 분류 네트워크는 이를 견뎌내도록 학습된다.
학습 과정은 최적화 도중 생성자에 의해 실시간으로 적대적 예제가 생성되며, 종단 간(end-to-end)으로 진행된다.
이 프레임워크는 동적으로 생성된 적대적 예제를 통한 데이터 증강을 가능하게 하여, 미리 보지 못한 공격에 대한 일반화 능력을 향상시킨다.

실험 결과

연구 질문

RQ1생성적 적대적 프레임워크가 딥 뉴럴 네트워크 내의 적대적 편향을 효과적으로 모델링하고 방어할 수 있는가?
RQ2제안된 GAN 기반 방어 기법의 성능은 앙상블 적대적 훈련 및 PGD 기반 훈련과 같은 기존 방법과 비교해 어떻게 되는가?
RQ3이 방법은 모델에 대한 접근 권한이 없는 블랙박스 공격 시나리오에서도 잘 일반화되는가?
RQ4생성 네트워크는 분류기를 효과적으로 시험할 수 있는 현실적인 적대적 노이즈를 학습할 수 있는가?
RQ5제안된 방어 기법에서 강건성과 표준 정확도 사이의 상충 관계는 어떠한가?

주요 결과

제안된 GAN 기반 방어 기법은 앙상블 적대적 훈련 및 투영된 경사하강법(PGD) 기반 훈련과 같은 최신 기술 수준의 방법과 동등한 성능을 달성한다.
이 방법은 블랙박스 공격에 대해 강력한 강건성을 보이며, 예상치 못한 공격 전략에 대한 효과적인 일반화 능력을 나타낸다.
최소화 게임 프레임워크에서 생성자와 디스criminator의 공동 훈련이, 훈련 중에 명시적인 적대적 예제가 필요 없이도 모델의 강건성을 향상시키는 데 성공했다.
이 방법은 적대적 노이즈 패턴을 효과적으로 학습하여, 다양한 유형의 편향에 대해 분류기가 일반화할 수 있도록 한다.
강건성을 크게 향상시키는 동안 경쟁적인 표준 정확도를 유지함으로써, 강건성과 정확도 사이의 유리한 상충 관계를 보여준다.
실험 결과는 표준 모델이 일반적으로 속이는 소규모이자 인지하기 어려운 편향에 대해 모델이 저항력이 있음을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.