[논문 리뷰] Deep Neural Network Fingerprinting by Conferrable Adversarial Examples
이 논문은 전이 가능한 적대적 예제—서rogate 모델에서는 유일하게 대상 레이블로 잘못 분류되지만 참조 모델에서는 그렇지 않은 전이 가능한 적대적 입력—를 사용하여 딥 네URAL 네트워크 분류기의 새로운 프린팅 방법을 제안한다. 이 방법은 재학습된 CIFAR-10 서rogate 모델에서 완벽한 검출 성능(ROC AUC = 1.0)을 달성하며, 이는 이전 작업(ROC AUC = 0.63)을 뛰어넘고, 모델 추출, 미세조정, 프루닝, 정규화 공격 등에 대해 강력한 내성성을 보여준다.
In Machine Learning as a Service, a provider trains a deep neural network and gives many users access. The hosted (source) model is susceptible to model stealing attacks, where an adversary derives a surrogate model from API access to the source model. For post hoc detection of such attacks, the provider needs a robust method to determine whether a suspect model is a surrogate of their model. We propose a fingerprinting method for deep neural network classifiers that extracts a set of inputs from the source model so that only surrogates agree with the source model on the classification of such inputs. These inputs are a subclass of transferable adversarial examples which we call conferrable adversarial examples that exclusively transfer with a target label from a source model to its surrogates. We propose a new method to generate these conferrable adversarial examples. We present an extensive study on the irremovability of our fingerprint against fine-tuning, weight pruning, retraining, retraining with different architectures, three model extraction attacks from related work, transfer learning, adversarial training, and two new adaptive attacks. Our fingerprint is robust against distillation, related model extraction attacks, and even transfer learning when the attacker has no access to the model provider's dataset. Our fingerprint is the first method that reaches a ROC AUC of 1.0 in verifying surrogates, compared to a ROC AUC of 0.63 by previous fingerprints.
연구 동기 및 목표
- API 접근을 통해 공격자가 서rogate 모델을 추출할 수 있는 머신러닝 as a service (MLaaS) 환경에서의 모델 도용 위협을 해결하기 위해.
- 모델 추출 또는 수정 이후에도 후행적으로 도용된 모델을 탐지할 수 있는 수동적이고 강력한 프린팅 메커니즘을 개발하기 위해.
- 서rogate 모델로만 전이되는 특수한 적대적 예제의 하위집단—전이 가능한 적대적 예제—를 식별하고 이를 활용하기 위해.
- 다양한 공격, 예를 들어 적대적 훈련과 전이 학습에 대한 저항성을 평가하고, 이전 방법과의 성능 비교를 수행하기 위해.
제안 방법
- 서rogate 모델에서만 잘못 분류되고 참조 모델에서는 그렇지 않은 '전이 가능한 적대적 예제'라고 불리는 새로운 종류의 타겟 지정 전이 가능한 적대적 예제를 제안한다.
- 어떤 적대적 예제가 참조 모델보다 서rogate 모델으로만 전이되는 정도를 수량화하기 위해 전이 가능성 지표를 도입한다.
- 서rogate 모델로의 전이를 최대화하고 참조 모델로의 전이를 최소화함으로써 높은 전이 가능성 지표를 확보하기 위해 앙상블 적대적 공격(CAM)을 개발한다.
- 생성된 전이 가능한 적대적 예제를 지속적인 프린팅으로 활용하여, 의심되는 모델이 원본 모델의 서rogate인지 확인한다.
- 일련의 전이 가능한 예제에 대한 예측의 일치도를 기반으로 한 검증 메커니즘을 도입하여 서rogate 모델과 참조 모델을 구분한다.
- 모델 추출, 미세조정, 프루닝, 정규화, 재학습, 전이 학습 공격 등에 대한 광범위한 분석 실험을 통해 내성성을 평가한다.
실험 결과
연구 질문
- RQ1서rogate 모델로만 전이되고 독립적으로 학습된 참조 모델으로는 전이되지 않는 전이 가능한 적대적 예제의 하위집단을 식별할 수 있는가?
- RQ2제안된 전이 가능한 적대적 예제 프린팅 기법은 다양한 모델 추출 및 수정 공격에 대해 서rogate 모델을 탐지하는 데 얼마나 효과적인가?
- RQ3적대적 훈련 및 사전 훈련된 모델과 도메인 데이터에 접근 가능한 적응형 공격 상황에서 프린팅의 한계는 무엇인가?
- RQ4공격자가 지식 정규화, 재학습 또는 미세조정을 통해 탐지 회피를 시도할 경우 프린팅은 얼마나 유지되는가?
- RQ5재학습된 모델에서 ROC AUC 기준으로 이전 작업과 비교하여 프린팅의 탐지 성능은 어떻게 측정되는가?
주요 결과
- 제안된 프린팅 기법은 재학습된 CIFAR-10 서rogate 모델에서 완벽한 ROC AUC 1.0을 달성하며, 이는 이전 작업(ROC AUC = 0.63)을 크게 뛰어넘는 성능이다.
- 지식 정규화, 노크오프 네트워크, Jagielski 및 Papernot의 방법을 기반으로 한 모델 추출 공격에 대해서도 프린팅이 강력한 내성성을 유지한다.
- 미세조정, 가중치 프루닝, 다른 아키텍처로의 재학습에 대해서도 프린팅이 내성적이며, 서rogate 모델과 참조 모델 간 평균 CAEAcc 차이가 약 30% 유지된다.
- 초기부터 적대적 훈련을 수행할 경우 프린팅은 제거되지 않지만, ε=0.025일 때 CAEAcc가 15%로 감소하여 이 특정 공격에 취약함을 보여준다.
- 공급자의 데이터셋(예: CINIC-10)에 접근하지 못하는 경우 전이 학습에 대해서도 프린팅은 내성적이지만, ImageNet32 사전 훈련 모델과 CIFAR-10 데이터에 접근할 경우 프린팅이 제거될 수 있다.
- 신뢰도 분석 결과, Hitaj 등(2019)이 제안한 탐지 방법에 대해서도 프린팅이 비회피적이며, 알려진 회피 기법에 대한 내성성을 확인한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.