[논문 리뷰] PRADA: Protecting against DNN Model Stealing Attacks
PRADA는 클라이언트에서의 연속적인 API 쿼리 분포를 분석함으로써 딥 뉴럴 네트워크(DNN) 모델 도용 공격을 탐지하는 새로운 일반화된 방어 기법이다. 이 기법은 정상(정규) 쿼리 패턴에서의 이탈을 식별하여 이전의 모든 모델 추출 공격을 100% 정확도로, 0%의 잘못된 경고 없이 탐지하며, 다양한 DNN 모델과 입력 데이터 유형에 효과적인 경량의 상태 기반 탐지 메커니즘을 제공한다.
Machine learning (ML) applications are increasingly prevalent. Protecting the confidentiality of ML models becomes paramount for two reasons: (a) a model can be a business advantage to its owner, and (b) an adversary may use a stolen model to find transferable adversarial examples that can evade classification by the original model. Access to the model can be restricted to be only via well-defined prediction APIs. Nevertheless, prediction APIs still provide enough information to allow an adversary to mount model extraction attacks by sending repeated queries via the prediction API. In this paper, we describe new model extraction attacks using novel approaches for generating synthetic queries, and optimizing training hyperparameters. Our attacks outperform state-of-the-art model extraction in terms of transferability of both targeted and non-targeted adversarial examples (up to +29-44 percentage points, pp), and prediction accuracy (up to +46 pp) on two datasets. We provide take-aways on how to perform effective model extraction attacks. We then propose PRADA, the first step towards generic and effective detection of DNN model extraction attacks. It analyzes the distribution of consecutive API queries and raises an alarm when this distribution deviates from benign behavior. We show that PRADA can detect all prior model extraction attacks with no false positives.
연구 동기 및 목표
- 최적화된 합성 쿼리와 하이퍼파rameter 튜닝을 사용하여 효과적이고 일반화된 DNN 모델 추출 공격의 가능성을 입증하는 것.
- 모델 추출 성공에 영향을 미치는 핵심 요소들, 예를 들어 하이퍼파rameter 선택, 출력 정밀도(확률 대비 레이블), 그리고 대체 모델 아키텍처를 규명하는 것.
- PRADA를 개발하는 것. 이는 단일 클라이언트의 연속 쿼리 분포에서의 이탈을 모니터링함으로써 모델 추출 공격을 탐지하는 첫 번째 일반화된 상태 기반 방어 기법이다.
- 모델이나 데이터 분포에 대한 가정 없이 다양한 DNN 모델과 입력 데이터 유형에 효과적인 탐지 메커니즘을 제공하는 것.
- MLaaS 및 API 호스팅 모델에 대한 모델 도용 공격으로부터 보호할 수 있는 실용적이고 오픈소스 기반의 솔루션을 제공함으로써 정상 클라이언트의 서비스 가용성을 유지하는 것.
제안 방법
- 목표 모델의 예측 API로부터 최대 정보 수확을 얻기 위해 최적화 기법을 사용해 합성 쿼리를 생성하는 새로운 모델 추출 공격을 제안한다.
- 교차 검증을 통한 하이퍼파rameter 검색을 활용하여 대체 모델의 성능을 향상시켜, 고정 또는 무작위로 선택된 하이퍼파ram터보다 뛰어난 성능을 달성한다.
- 예측 출력 형식—클래스 레이블 대비 신뢰도 확률—이 대체 모델 정확도와 악성 예제의 전이 가능성에 미치는 영향을 분석한다.
- 정상 행동를 정규 분포로 모델링하는 상태 기반 방어 기법인 PRADA를 설계한다.
- 쿼리 분포가 기대되는 정규 분포에서 유의미하게 이탈할 경우 경고를 발생시켜 모델 추출 활동의 가능성을 경고한다.
- 통계적 가설 검정(예: 콜모고로프-스미르노프 검정)을 사용하여 쿼리 시퀀스에서 정규 분포가 아닌 행동을 탐지함으로써, 모델이나 데이터 분포 지식 없이 실시간 탐지가 가능하게 한다.
실험 결과
연구 질문
- RQ1최적화된 합성 쿼리 생성 및 학습 하이퍼파ram터 튜닝을 통해 모델 추출 공격의 성능를 크게 향상시킬 수 있는가?
- RQ2예측 확률 대비 클래스 레이블 사용이 악성 예제의 전이 가능성과 대체 모델 정확도에 어떤 영향을 미치는가?
- RQ3대상 모델과 대체 모델 간의 아키텍처 유사성이 모델 추출 공격 성공에 얼마나 큰 영향을 미치는가?
- RQ4모델이나 데이터 분포에 대한 가정 없이 다양한 DNN 모델과 입력 데이터 유형에서 작동하는 일반화된 상태 기반 탐지 메커니즘을 설계할 수 있는가?
- RQ5학습 데이터 분포나 모델 아키텍처에 대한 사전 지식 없이도 모델 도용 공격을 탐지할 수 있는가?
주요 결과
- 제안된 모델 추출 공격는 이전 최고 수준의 방법 대비 예측 정확도에서 최대 46%포인트 향상되고, 악성 예제의 전이 가능성은 29~44%포인트 향상된다.
- 교차 검증을 통한 하이퍼파rameter 검색은 대체 모델 성능을 크게 향상시켜, 고정 또는 무작위로 선택된 하이퍼파ram터보다 뛰어나다.
- 악성 예제의 높은 전이 가능성에는 예측 확률이 필수적이며, 클래스 레이블만으로도 높은 대체 모델 정확도를 확보할 수 있다.
- 대체 모델에 동일한 아키텍처를 사용할 경우 전이 가능성은 더 높아지며, 더 복잡한 아키텍처는 예측 정확도를 높일 수 있다.
- PRADA는 다양한 정상 데이터 분포에서 테스트한 결과, 이전의 모든 모델 추출 공격을 100% 탐지율과 0%의 잘못된 경고로 탐지한다.
- PRADA는 다양한 DNN 모델과 입력 데이터 유형에서 효과적이며, 정상 예측 서비스의 성능에 영향을 주지 않는다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.