Skip to main content
QUICK REVIEW

[논문 리뷰] Practical Black-Box Attacks against Machine Learning

Nicolas Papernot, Patrick McDaniel|arXiv (Cornell University)|2016. 02. 08.
Adversarial Robustness in Machine Learning참고 문헌 35인용 수 101
한 줄 요약

블랙박스 공격이 합성 입력을 사용해 원격 DNN에 의해 라벨링된 대체 모델을 훈련시키고, 그 후 목표 모델에 전달되는 적대적 예제를 만들며, 모델 내부나 학습 데이터에 접근하지 않고도 높은 오분류 비율을 달성한다.

ABSTRACT

Machine learning (ML) models, e.g., deep neural networks (DNNs), are vulnerable to adversarial examples: malicious inputs modified to yield erroneous model outputs, while appearing unmodified to human observers. Potential attacks include having malicious content like malware identified as legitimate or controlling vehicle behavior. Yet, all existing adversarial example attacks require knowledge of either the model internals or its training data. We introduce the first practical demonstration of an attacker controlling a remotely hosted DNN with no such knowledge. Indeed, the only capability of our black-box adversary is to observe labels given by the DNN to chosen inputs. Our attack strategy consists in training a local model to substitute for the target DNN, using inputs synthetically generated by an adversary and labeled by the target DNN. We use the local substitute to craft adversarial examples, and find that they are misclassified by the targeted DNN. To perform a real-world and properly-blinded evaluation, we attack a DNN hosted by MetaMind, an online deep learning API. We find that their DNN misclassifies 84.24% of the adversarial examples crafted with our substitute. We demonstrate the general applicability of our strategy to many ML techniques by conducting the same attack against models hosted by Amazon and Google, using logistic regression substitutes. They yield adversarial examples misclassified by Amazon and Google at rates of 96.19% and 88.94%. We also find that this black-box attack strategy is capable of evading defense strategies previously found to make adversarial example crafting harder.

연구 동기 및 목표

  • ML 분류기에 대해 입력-출력 라벨만 접근 가능한 실용적인 블랙박스 위협 모델을 동기 부여하고 형식화한다.
  • 대상에 의해 라벨링된 합성 데이터로 학습된 대체 모델이 전달 가능한(adversarial) 예제를 생성할 수 있음을 보인다.
  • 전이성 및 방어 회피를 평가하기 위해 실제 원격 DNN 서비스와 로컬 GTSRB 분류기에 대해 공격을 평가한다.

제안 방법

  • 합성 입력으로 원격 오라클에 질의하고 오라클의 출력으로 라벨링하여 대체 DNN을 훈련한다(학습 데이터 접근 없음).
  • Jacobian 기반 데이터세트 증가를 사용하여 입력 공간을 효율적으로 탐색하고 오라클 질의 수를 줄이면서 대체의 의사결정 경계를 형성한다.
  • Goodfellow의 빠른 기울기 부호 방법과 Papernot의 주의도 기반 접근법을 사용해 대체에서 적대적 샘플을 만들어 목표 모델의 오분류를 유도한다.
  • 대체에서 목표로의 적대적 예제의 전달 가능성을 유사한 의사결정 경계로 인해 시연한다.
  • 여러 원격 분류기(MetaMind MNIST, Amazon/GG)와 로컬 GTSRB 모델에 대해 공격을 검증하여 광범위한 적용 가능성을 보인다.

실험 결과

연구 질문

  • RQ1질의에서 라벨 출력만으로도 대상 DNN의 오분류를 유도할 수 있는 블랙박스 공격자가 가능할까?
  • RQ2대상이 라벨링된 합성 데이터로 학습된 대체 모델이 대상 모델을 속일 수 있는 전달 가능한(adversarial) 예제를 생성할 수 있을까?
  • RQ3공격이 다양한 아키텍처와 원격 ML 서비스(MetaMind, Amazon, Google) 및 데이터세트(MNIST, GTSRB) 전반에서 얼마나 효과적인가?

주요 결과

  • 대체 모델에서 구성된 적대적 예제가 대상 모델을 잘못 분류하게 하며, MetaMind MNIST 실험에서 전달 비율은 84.24%이다.
  • 특정 조건에서 Amazon 및 Google 호스팅 모델은 각각 96.19%와 88.94%의 오분류를 보였다.
  • GTSRB 목표 공격은 작은 섭동으로도 64.24%에서 69.03%의 전달 가능성 를 달성한다.
  • Jacobian 기반 증가를 통한 대체 학습은 비교적 적은 오라클 질의로도 효과적인 결정 경계 근사치를 제공한다.
  • 이 공격은 적대적 예제 작성을 강화하도록 설계된 방어를 회피할 수 있어, 방어 메커니즘이 블랙박스 대체에 대해서는 충분하지 않을 수 있음을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.