Skip to main content
QUICK REVIEW

[논문 리뷰] Training Ensembles to Detect Adversarial Examples

Alexander Bagnall, Răzvan Bunescu|arXiv (Cornell University)|2017. 12. 11.
Adversarial Robustness in Machine Learning참고 문헌 6인용 수 30
한 줄 요약

이 논문은 깨끗한 데이터에서 높은 정확도를 유지하면서 동시에 무작위로 변형된 입력에서 적극적으로 이견을 보이도록 훈련하는 다수의 신경망 모델을 사용하는 새로운 계산적으로 효율적인 앙상블 방법을 제안한다. 이는 화이트박스,_BLK박스, 오브리버스 공격 설정 전반에서 적절한 악성 예측을 효과적으로 탐지할 수 있도록 한다. CIFAR-10에 대한 C&W 공격에서 68.1%의 탐지율을 기록하여 공격에 특화된 방어 기법 없이도 최신 기술 수준의 공격에 강건함을 입증한다.

ABSTRACT

We propose a new ensemble method for detecting and classifying adversarial examples generated by state-of-the-art attacks, including DeepFool and C&W. Our method works by training the members of an ensemble to have low classification error on random benign examples while simultaneously minimizing agreement on examples outside the training distribution. We evaluate on both MNIST and CIFAR-10, against oblivious and both white- and black-box adversaries.

연구 동기 및 목표

  • 다양한 위협 모델 전반에서 공격에 종속되지 않고 계산적으로 경량인 악성 예측 탐지 방법을 개발하기 위해.
  • 특히 무작위 변형과 같은 분포 외부 입력에서 앙상블의 이견을 유도하여 악성 예측 탐지 성능을 향상시키기 위해.
  • 깨끗한 데이터에서 높은 분류 정확도를 유지하면서도 정확도와 이견을 동시에 최적화함으로써 악성 입력에 대한 민감도를 높이기 위해.
  • MNIST와 CIFAR-10에서 C&W, DeepFool, FGSM, 기본 반복 공격과 같은 최신 기술 수준의 공격에 대한 저항력을 평가하기 위해.
  • 다양한 방어 목표 설정에서 분류 정확도와 탐지율 간의 상호 상충 관계를 탐색하기 위해.

제안 방법

  • 이 방법은 N개의 신경망 모델을 복합 손실 함수를 통해 동시에 훈련한다: 깨끗한 데이터에 대한 표준 교차 엔트로피 손실(Je)과 무작위로 변형된 입력에서의 일치를 방지하는 이견 정규화 항(Ja)이 포함된다.
  • 무작위 변형 ε는 [-η, η)에서 균일하게 샘플링되어 악성 예측 유사 훈련 예제를 생성하며, η는 변형의 L∞-노름을 제어한다.
  • 이견 손실 Ja는 모든 모델 쌍 간의 소프트맥스 출력 벡터의 평균 내적을 계산하여, 변형된 입력에서 다양한 예측을 유도한다.
  • 총 손실은 J = Je + λJa로 표현되며, λ는 깨끗한 정확도와 이견 간의 상호 상충를 제어한다. 이는 미니배치 확률적 경사 하강법으로 최적화된다.
  • 테스트 시점에 입력는 순위 투표를 통해 분류된다: 앙상블 구성원들 간의 순위 합계가 가장 낮은 레이블이 선택되며, 앙상블 이견이 임계값 τ를 초과할 경우 입력은 악성 예측으로 표시된다.
  • 임계값 τ는 깨끗한 검증 데이터에서의 잘못된 경고를 최소화하면서도 악성 예측 탐지를 극대화하도록 튜닝된다.

실험 결과

연구 질문

  • RQ1공격에 대한 사전 지식 없이도 오브리버스, 블랙박스, 화이트박스 설정 전반에서 앙상블 방법이 악성 예측을 탐지할 수 있는가?
  • RQ2깨끗한 정확도와 변형된 입력에서의 이견을 동시에 최적화함으로써 C&W 및 DeepFool과 같은 강력한 공격에 대한 탐지 성능에 어떤 영향을 미치는가?
  • RQ3Je와 Ja의 손실 함수 가중치를 다르게 설정할 경우 분류 정확도와 탐지율 간의 상호 상충 관계는 어떻게 변화하는가?
  • RQ4깨끗한 정확도와 앙상블 일치를 동시에 공격하는 공격에 직면했을 때 이 방법은 여전히 효과적인가?
  • RQ5이 방법은 랜덤 노이즈에 대해 무방비 모델에 비해 민감도가 높은가, 그리고 악성 예측에 대해서는 어떠한가?

주요 결과

  • 이 앙상블 방법은 CIFAR-10에서 C&W 공격로 생성된 악성 예측에 대해 68.1%의 탐지율을 기록하여, 무방비 모델보다 뛰어난 성능을 보였다.
  • κ=250인 C&W 공격에 대해 이 방법은 탐지율이 7.0%에 불과하고 분류 정확도는 9.6%에 머물러 있어 이 강력한 공격에 대해 성공이 제한됨을 시사한다.
  • DeepFool 공격는 CIFAR-10에서 42.6%의 탐지율을 기록했으며, 평균 변형 크기가 3.3로 높아 탐지 회피에 덜 효과적임을 나타낸다.
  • 화이트박스 설정에서 λ=0.27일 때 기본 반복 공격는 26.4%의 분류 정확도와 27.1%의 탐지율을 기록하여 오류 분류와 탐지 간의 상호 상충 관계를 보여준다.
  • 이 방법은 랜덤 노이즈(η=0.1 및 η=0.02)에 대해 민감도를 높였지만, 수락된 노이즈가 포함된 예측에 대해서는 높은 분류 정확도를 유지하여 양호한 보편성(보편적 허용성)을 보였다.
  • 블랙박스 설정에서는 MNIST에서 FGS에 대해 70.8%의 높은 탐지율을 유지하면서도 깨끗한 데이터 정확도를 높게 유지하여 다양한 공격 유형에 대한 일반화 능력을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.