QUICK REVIEW

[논문 리뷰] On Detecting Adversarial Perturbations

Jan Hendrik Metzen, Tim Genewein|arXiv (Cornell University)|2017. 02. 14.

Adversarial Robustness in Machine Learning인용 수 219

한 줄 요약

이 논문은 분류기에 작은 감지기 서브네트를 추가해 진짜 데이터와 적대적 예제를 구분하고 CIFAR-10 및 10-클래스 ImageNet 부분집합에서 강한 탐지성을 보이며 동적 적대자에 대한 방어를 포함한다.

ABSTRACT

Machine learning and deep learning in particular has advanced tremendously on perceptual tasks in recent years. However, it remains vulnerable against adversarial perturbations of the input that have been crafted specifically to fool the system while being quasi-imperceptible to a human. In this work, we propose to augment deep neural networks with a small "detector" subnetwork which is trained on the binary classification task of distinguishing genuine data from data containing adversarial perturbations. Our method is orthogonal to prior work on addressing adversarial perturbations, which has mostly focused on making the classification network itself more robust. We show empirically that adversarial perturbations can be detected surprisingly well even though they are quasi-imperceptible to humans. Moreover, while the detectors have been trained to detect only a specific adversary, they generalize to similar and weaker adversaries. In addition, we propose an adversarial attack that fools both the classifier and the detector and a novel training procedure for the detector that counteracts this attack.

연구 동기 및 목표

심층 네트워크가 거의 구분이 불가한 적대적 섭동에 취약하다는 점을 동기 부여하고 해결한다.
원래 데이터와 적대적으로 섭동된 데이터를 구분하는 이진 탐지기 서브넷을 제안한다.
훈련에 사용된 적대자 외의 유사하고 약한 적대자에 대해서도 탐지기의 일반화 성능을 보여준다.
동적 적대자를 조사하고 이에 대해 탐지기를 방어하도록 강화하는 학습 전략을 제안한다.

제안 방법

사전 학습된 분류기의 중간 계층에 작은 적대자 탐지기 서브넷을 부착한다.
학습 세트에 대해 생성된 원본 대비 적대적 예제의 균형 데이터셋으로 탐지기를 훈련한다.
분류기의 가중치를 고정하고 적대자 레이블에 대한 교차 엔트로피 손실로 탐지기를 훈련한다.
CIFAR-10 및 ImageNet 부분집합에서 실험을 통해 탐지기 배치 및 아키텍처를 탐색한다.
섭동 생성 중 분류기와 탐지기 목표를 함께 최적화하는 동적 적대자 정식을 도입한다.
적응형 공격에 대비한 탐지기 강화 동적 적대자 훈련을 개발한다.

실험 결과

연구 질문

RQ1특정 적대자에서 훈련된 탐지기가 데이터 의존적 적대 섭동을 신뢰할 수 있게 탐지할 수 있는가?
RQ2분류기 내 탐지기 배치가 적대적 탐지성에 어떤 영향을 미치는가?
RQ3하나의 적대자에서 학습된 탐지기가 다른 유사하거나 더 약한 적대자나 노름(l_inf vs l2)으로 전이되는가?
RQ4분류기와 탐지기에 모두 적응하는 동적 적대자에 대해 탐지기는 얼마나 강건한가?
RQ5적응적이고 동적인 공격에 대해 탐지기를 강화할 수 있는 어떤 훈련 절차가 있는가?

주요 결과

탐지기는 CIFAR-10의 테스트된 모든 적대자에서 높은 탐지성을 달성하며(80% 이상), 적대적 예제에 대한 분류기 정확도가 10% 미만일 때 탐지성이 90%를 넘는 경우가 많다.
중간 네트워크 계층의 탐지기 배치(AD(2))가 일반적으로 빠르고 반복적인 적대자에 대해 최적의 탐지를 제공; DeepFool 변형에는 AD(4)가 종종 최적이다.
하나의 적대자에서 학습된 탐지기가 다른 유사하거나 약한 적대자에 전이될 수 있으며, 관련 공격에 대해 l_inf와 l2 변형 간의 전이가 종종 효과적이다.
적응형 공격에 저항하도록 학습된 동적 탐지기는 다양한 적응 강도(Sigma 값)에서도 탐지성을 70% 이상으로 유지한다.
10-클래스 ImageNet 부분집합에서 대부분의 적대자에 대해 85% 이상 탐지성을 달성하며; 하나의 반복적 l2 케이스(epsilon=400)는 확률 수준에 근접해 어려운 예외를 보인다.
탐지기는 adversarial 입력이 탐지될 때 대체 또는 안전 조치(예: 인간 확인)를 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.