[논문 리뷰] DAWN: Dynamic Adversarial Watermarking of Neural Networks
DAWN은 모델의 예측 API에 동적이고 클라이언트 특화 워터마크를 삽입하여 모델 추출 공격을 억제하고, 거의 유틸리티 손실 없이 소유권 검증을 가능하게 한다.
Training machine learning (ML) models is expensive in terms of computational power, amounts of labeled data and human expertise. Thus, ML models constitute intellectual property (IP) and business value for their owners. Embedding digital watermarks during model training allows a model owner to later identify their models in case of theft or misuse. However, model functionality can also be stolen via model extraction, where an adversary trains a surrogate model using results returned from a prediction API of the original model. Recent work has shown that model extraction is a realistic threat. Existing watermarking schemes are ineffective against IP theft via model extraction since it is the adversary who trains the surrogate model. In this paper, we introduce DAWN (Dynamic Adversarial Watermarking of Neural Networks), the first approach to use watermarking to deter model extraction IP theft. Unlike prior watermarking schemes, DAWN does not impose changes to the training process but it operates at the prediction API of the protected model, by dynamically changing the responses for a small subset of queries (e.g., <0.5%) from API clients. This set is a watermark that will be embedded in case a client uses its queries to train a surrogate model. We show that DAWN is resilient against two state-of-the-art model extraction attacks, effectively watermarking all extracted surrogate models, allowing model owners to reliably demonstrate ownership (with confidence $>1- 2^{-64}$), incurring negligible loss of prediction accuracy (0.03-0.5%).
연구 동기 및 목표
- ML 모델에 대한 지적 재산권 보호를 촉진하고 예측 API를 통한 모델 추출을 억제한다.
- API 질의 중에 작동하는 동적이고 적대적 워터마킹 메커니즘을 도입한다.
- 워터마킹이 클라이언트별로 고유하고 제거가 어렵며 질의 클라이언트와 연결될 수 있도록 한다.
제안 방법
- 워터마크 생성을 암호학적 해시(HMAC-SHA256)를 사용해 어떤 입력에 워터마크를 적용할지와 잘못된 레이블을 반환할지 결정한다.
- 워터마크는 백도어다; 트리거 집합 T_A는 F_V의 응답이 B_V(x)로 대체되는 API 질의의 일부 프랙션 r_w을 구성한다.
- 백도어 함수 B_V는 원래 예측 확률의 키가 부여된 순열로서, 워터마크 출력이 합법적인 예측처럼 보이도록 보장한다.
- 작은 입력 섭동에 대해 W_V와 B_V를 안정화하기 위해 입력을 표현 M_V(x)로 매핑하여 구별 가능성을 높인다.
- 검증은 대리 모델 F_A의 출력이 워터마크 레이블과 다른 트리거 세트 입력의 비율을 계산하고, 소유권 선언을 위한 확률적 임계값 e를 사용한다.
- 소유권 시연은 신뢰할 수 있는 재판관과 공개 원장(public ledger)을 사용해 커밋먼트를 게시하고 대리성(demonstration)을 검증한다.
실험 결과
연구 질문
- RQ1DAWN이 모델 추출에 의해 생성된 모든 대리 모델에 대해 원래 모델의 유용성을 크게 해치지 않고도 신뢰성 있게 워터마크를 적용할 수 있는가?
- RQ2워터마크가 대적 조작 및 최신 추출 공격에 대해 견고한가?
- RQ3소유권을 특정 API 클라이언트와 연결하고 신뢰할 수 있는 프로세스를 통해 입증 가능하도록 할 수 있는가?
주요 결과
- DAWN은 1 − 2^(-64)보다 큰 확신으로 소유권 시연을 달성한다.
- 워터마킹은 보호된 모델에서 정확도 손실을 거의 0.03%~0.5%로 미세하게 유발한다.
- 워터마크는 클라이언트별로 고유하고 질의 API 클라이언트와 연결할 수 있다.
- DAWN은 두 가지 최신 모델 추출 공격에 대해 견고하다.
- 이 방법은 보호된 모델의 학습 과정을 변경할 필요가 없고 예측 API 단계에서 작동한다.
- 여러 모델과 데이터셋에 대한 실험에서 적대적 조작 및 회피에 대한 강건함을 보였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.