Skip to main content
QUICK REVIEW

[논문 리뷰] Blocking Transferability of Adversarial Examples in Black-Box Learning Systems

Hossein Hosseini, Yize Chen|arXiv (Cornell University)|2017. 03. 13.
Adversarial Robustness in Machine Learning참고 문헌 45인용 수 92
한 줄 요약

본 논문은 black-box 학습에서 적대적 입력을 NULL로 거부하도록 분류기를 학습시키고 깨끗한 데이터에서의 정확도를 유지하면서 적대적 예제의 전이 가능성을 차단하는 NULL 라벨링 방어를 제안한다.

ABSTRACT

Advances in Machine Learning (ML) have led to its adoption as an integral component in many applications, including banking, medical diagnosis, and driverless cars. To further broaden the use of ML models, cloud-based services offered by Microsoft, Amazon, Google, and others have developed ML-as-a-service tools as black-box systems. However, ML classifiers are vulnerable to adversarial examples: inputs that are maliciously modified can cause the classifier to provide adversary-desired outputs. Moreover, it is known that adversarial examples generated on one classifier are likely to cause another classifier to make the same mistake, even if the classifiers have different architectures or are trained on disjoint datasets. This property, which is known as transferability, opens up the possibility of attacking black-box systems by generating adversarial examples on a substitute classifier and transferring the examples to the target classifier. Therefore, the key to protect black-box learning systems against the adversarial examples is to block their transferability. To this end, we propose a training method that, as the input is more perturbed, the classifier smoothly outputs lower confidence on the original label and instead predicts that the input is "invalid". In essence, we augment the output class set with a NULL label and train the classifier to reject the adversarial examples by classifying them as NULL. In experiments, we apply a wide range of attacks based on adversarial examples on the black-box systems. We show that a classifier trained with the proposed method effectively resists against the adversarial examples, while maintaining the accuracy on clean data.

연구 동기 및 목표

  • 블랙박스 학습 시스템에서 적대적 전이의 위협을 동기 부여하고 형식화한다.
  • 적대적 입력을 거부하기 위해 분류기에 NULL 라벨을 추가하는 방어 기법을 도입한다.
  • 다양한 공격 설정과 플랫폼에서 MNIST와 GTSRB에 대해 NULL 라벨링 방법의 강건성을 입증한다.
  • 강건한 학습과 NULL 라벨링이 깨끗한 데이터 대 적대적 입력의 정확도에 어떤 영향을 미치는지 평가한다.

제안 방법

  • 공격자에 대한 블랙박스 및 블라인드 위협 모델 정의.
  • 클린 데이터와 적대적 예제 사이를 교대로 사용하여 대체 분류기를 학습하고, 라벨을 오라클에 질의한다.
  • 출력에 NULL 라벨을 추가하고 일반화 향상을 위해 라벨 스무딩을 사용한다.
  • 검증 데이터에서 Misclassification Attack Greedy (MG) 방법을 사용해 적대적 예제의 NULL 확률을 계산한다.
  • 대상 기반의 그라디언트 기반 평활화 공격(STG)을 적대적 특징과 함께 사용하는 적대적 학습에 적용한다.
  • DNN, 강건한 DNN, ML-서비스 플랫폼(AWS/Amazon 및 Microsoft Azure) 간의 전이성 및 강건성을 평가한다.

실험 결과

연구 질문

  • RQ1대체 분류기에서 만들어진 적대적 예제가 목표 블랙박스 분류기로 전이될 수 있는가?
  • RQ2NULL 라벨을 추가하고 적대적 예제에 대해 학습시키는 것이 깨끗한 데이터 정확도를 유지하면서 전이 가능성을 낮추는가?
  • RQ3다른 위협 모델(블랙박스 vs. 블라인드)이 공격 성공률과 전이 가능성에 어떤 영향을 미치는가?
  • RQ4실용 ML 서비스(AWS/Amazon, Microsoft Azure) 및 공개 데이터셋 MNIST와 GTSRB에 대한 NULL 라벨링의 영향은 무엇인가?
  • RQ5적대적 전이 가능성 완화에 있어 강건 학습 변형과 NULL 라벨링 방어를 비교하면 어떻게 되는가?

주요 결과

ML ClassifierMNISTGTSRB
DNN99.35%97.77%
DNN trained with Robust098.81%97.05%
DNN trained with Robust∞99.39%96.80%
Amazon Oracle92.00%72.81%
Microsoft Oracle97.73%85.76%
  • 적대적 예제의 전이 가능성은 블랙박스 시스템에 대한 효과적인 공격을 가능하게 하며, 교란이 커질수록 성공률이 높아진다.
  • NULL 라벨링과 라벨 스무딩은 큰 교란의 예제를 NULL 클래스로 매핑하여 적대적 입력을 거부하면서 깨끗한 데이터 정확도를 유지할 수 있다.
  • MNIST에서 NULL 라벨링된 분류기로의 적대적 예제 전이가 사실상 무효(제로 전이)이다.
  • GTSRB에서 L0 공격의 전이 가능성은 거의 0에 가깝고 L∞ 공격은 10% 미만이며, NULL 라벨링 모델이 성공적인 적대적 전이를 크게 감소시킨다.
  • 강건 학습 변형은 데이터 세트 간 깨끗한 데이터 정확도에 혼합 효과를 보이지만 일반적으로 어느 정도의 저항을 제공하고, 반면 NULL 라벨링 방식은 테스트 기준에서 표준 적대적 학습보다 우수하다.
  • MNIST 와 GTSRB의 정확도 결과는 다음과 같은 정확한 수치를 나타낸다: DNN 99.35% / 97.77%; Robust0 98.81% / 97.05%; Robust∞ 99.39% / 96.80%; AWS Amazon 92.00% / 72.81%; Microsoft 97.73% / 85.76%.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.