[논문 리뷰] Practical Black-Box Attacks against Deep Learning Systems using Adversarial Examples.
이 논문은 타겟 모델의 아키텍처나 파라미터, 학습 데이터에 접근할 수 없더라도, 공격자가 타겟 모델의 출력만을 쿼리하여 대체 모델을 훈련시킴으로써 딥 뉴럴 네트워크 시스템에 대한 실용적인 블랙박스 공격을 제안한다. 이 방법은 타겟 모델의 내부 구조를 알지 못한 채 성공적인 회피 공격을 수행할 수 있으며, 메타민(MetaMind)의 실세계 DNN API에서 84.24%의 오분류율을 기록하여 다양한 모델 간에 적대적 예제의 전이성(transferability)이 효과적으로 작용하는 것을 입증한다.
Advances in deep learning have led to the broad adoption of Deep Neural Networks (DNNs) to a range of important machine learning problems, e.g., guiding autonomous vehicles, speech recognition, malware detection. Yet, machine learning models, including DNNs, were shown to be vulnerable to adversarial samples-subtly (and often humanly indistinguishably) modified malicious inputs crafted to compromise the integrity of their outputs. Adversarial examples thus enable adversaries to manipulate system behaviors. Potential attacks include attempts to control the behavior of vehicles, have spam content identified as legitimate content, or have malware identified as legitimate software. Adversarial examples are known to transfer from one model to another, even if the second model has a different architecture or was trained on a different set. We introduce the first practical demonstration that this cross-model transfer phenomenon enables attackers to control a remotely hosted DNN with no access to the model, its parameters, or its training data. In our demonstration, we only assume that the adversary can observe outputs from the target DNN given inputs chosen by the adversary. We introduce the attack strategy of fitting a substitute model to the input-output pairs in this manner, then crafting adversarial examples based on this auxiliary model. We evaluate the approach on existing DNN datasets and real-world settings. In one experiment, we force a DNN supported by MetaMind (one of the online APIs for DNN classifiers) to mis-classify inputs at a rate of 84.24%. We conclude with experiments exploring why adversarial samples transfer between DNNs, and a discussion on the applicability of our attack when targeting machine learning algorithms distinct from DNNs.
연구 동기 및 목표
- 딥 뉴럴 네트워크의 아키텍처, 파라미터, 학습 데이터에 접근할 수 없더라도 원격으로 호스팅된 DNN에 대해 적대적 예제를 생성할 수 있음을 보여주기 위해.
- 대체 모델에서 생성한 적대적 예제가 타겟 블랙박스 모델로 전이되는 가능성에 대해 조사하기 위해.
- 생산용 API를 포함한 실세계 환경에서 공격의 효과성을 평가하기 위해.
- 다양한 딥 뉴럴 네트워크 모델 간에 적대적 예제가 전이되는 이유를 탐구하기 위해.
- 딥 뉴럴 네트워크를 초월한 기계학습 모델로 이 공격 전략이 일반화될 수 있는지 평가하기 위해.
제안 방법
- 공격자는 선택된 입력을 타겟 DNN에 제공하고 해당 출력을 수집하여 타겟 모델의 행동을 모방하는 대체 모델을 훈련시킨다.
- 블랙박스 쿼리를 통해 수집한 입력-출력 쌍을 사용하여 대체 모델을 훈련함으로써, 공격자가 타겟 모델의 내부 구조를 알지 못한 채 적대적 예제를 생성할 수 있다.
- 대체 모델의 기울기를 기반으로 표준 적대적 공격 기법(예: FGSM 또는 PGD)을 사용하여 대체 모델 상에서 적대적 예제를 생성한다.
- 생성된 적대적 예제는 이후 타겟 모델로 전이되어 오분류를 유도하는지 테스트한다.
- 다른 아키텍처나 학습 데이터를 가진 모델 간에 관찰된 적대적 예제의 전이성을 활용한다.
- 이 방법은 표준 DNN 데이터셋과 실세계 API(메타민의 온라인 DNN 분류기 서비스 포함)에서 평가된다.
실험 결과
연구 질문
- RQ1출력 쿼리만 제공되는 상황에서, 아키텍처나 파라미터, 학습 데이터에 접근할 수 없을 때도 적대적 예제를 효과적으로 생성할 수 있는가?
- RQ2대체 모델이 타겟 DNN의 행동을 얼마나 정확히 재현하여 성공적인 적대적 공격를 가능하게 하는가?
- RQ3실세계 환경에서 대체 모델에서 생성한 적대적 예제가 실제 타겟 모델로 전이될 때 얼마나 효과적인가?
- RQ4다양한 DNN 아키텍처와 학습 데이터 간에 적대적 예제가 전이되는 데 기여하는 요소는 무엇인가?
- RQ5이 공격 전략은 딥 뉴럴 네트워크를 초월한 다른 기계학습 모델로 일반화될 수 있는가?
주요 결과
- 메타민(MetaMind)의 온라인 DNN 분류기에서 84.24%의 오분류율을 기록하여 실세계 블랙박스 환경에서 매우 높은 실용적 효과를 입증하였다.
- 대체 모델이 타겟 모델의 행동을 성공적으로 모방하여, 전이 성공률가 높은 적대적 예제를 생성할 수 있었다.
- 대체 모델에서 생성한 적대적 예제가 실제 타겟 모델로 효과적으로 전이되어 실질적인 전이성 현상이 확인되었다.
- 타겟 모델의 아키텍처나 학습 데이터가 다를 경우에도 이 방법이 작동함으로써, 전이성 특성이 매우 강건함을 시사한다.
- 모델 파라미터나 학습 데이터가 없더라도 공격가 여전히 효과적이므로, 완전한 블랙박스 환경에서의 가능성을 입증하였다.
- 결과적으로, 적대적 예제의 전이성은 원격으로 배포되고 보안적으로 보호된 딥 뉴럴 네트워크 시스템에서도 체계적인 취약점임을 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.