QUICK REVIEW

[논문 리뷰] Effectiveness of Distillation Attack and Countermeasure on Neural Network Watermarking

Ziqi Yang, Hung Dang|arXiv (Cornell University)|2019. 06. 14.

Adversarial Robustness in Machine Learning참고 문헌 47인용 수 24

한 줄 요약

이 논문은 지식 증류가 기존 신경망 워터마킹 기법을 심각하게 약화시킨다는 것을 입증한다. 이는 워터마킹과 관련된 파rameter들이 주 분류 작업에서 분리되어 있기 때문이다. 이를 해결하기 위해 저자들은 *ingrain*을 제안하며, 정규화 손실을 통해 메인 예측에 직접 워터마킹을 삽입함으로써 증류에 강한 저항성을 확보한다. 이로 인해 높은 정확도를 유지하면서도 다른 일반적인 변환에 대해서도 강건성을 확보한다.

ABSTRACT

The rise of machine learning as a service and model sharing platforms has raised the need of traitor-tracing the models and proof of authorship. Watermarking technique is the main component of existing methods for protecting copyright of models. In this paper, we show that distillation, a widely used transformation technique, is a quite effective attack to remove watermark embedded by existing algorithms. The fragility is due to the fact that distillation does not retain the watermark embedded in the model that is redundant and independent to the main learning task. We design ingrain in response to the destructive distillation. It regularizes a neural network with an ingrainer model, which contains the watermark, and forces the model to also represent the knowledge of the ingrainer. Our extensive evaluations show that ingrain is more robust to distillation attack and its robustness against other widely used transformation techniques is comparable to existing methods.

연구 동기 및 목표

기존 신경망 워터마킹 기법이 모델 변환, 특히 지식 증류에 얼마나 취약한지 조사하기 위해.
기존 워터마킹 방법이 증류 상황에서 실패하는 이유를 파악하기 위해, 워터마킹과 관련된 파rameter들이 주 분류 작업에서 분리되어 있기 때문이다.
증류 및 기타 일반적인 모델 변환에 강건한 새로운 워터마킹 기법을 설계하기 위해.
메인 작업의 정확도와 성능을 유지하면서도 워터마킹이 그대로 유지되도록 보장하기 위해.

제안 방법

기밀 워터마킹을 인코딩하고 정확한 출력을 생성하는 워터마킹 캐리어 데이터셋을 사용해 별도의 'ingrainer' 모델을 훈련한다.
메인 분류 모델의 훈련 동안, ingrainer 모델의 손실 함수를 정규화 항으로 사용한다.
동일한 훈련 데이터에서 메인 모델이 진짜 레이블과 ingrainer의 출력을 모두 일치시키도록 공동 최적화한다.
정규화 가중치를 조정하여 워터마킹의 강건성과 모델 정확도 사이의 균형을 맞춘다.
메인 분류 작업에 사용되는 동일한 신경 경로에 워터마킹을 통합함으로써 주 기능에서의 독립성을 줄인다.
증류 이후에도 정상 데이터에 대한 메인 모델의 예측에서 워터마킹을 복구할 수 있도록 보장한다.

실험 결과

연구 질문

RQ1기존 신경망 워터마킹 기법이 삽입한 워터마킹을 지식 증류가 효과적으로 제거할 수 있는가?
RQ2기존 워터마킹 방법이 정확도를 유지하면서도 증류 상황에서 실패하는 이유는 무엇인가?
RQ3메인 작업 성능을 유지하면서도 증류에 강건한 워터마킹은 어떻게 설계할 수 있는가?
RQ4워터마킹을 메인 모델의 예측 과정에 통합함으로써 모델 변환에 대한 저항성을 높일 수 있는가?

주요 결과

증류는 워터마킹과 관련된 파rameter들이 주 분류 기능에서 분리되어 있기 때문에, 정확도 손실이 거의 없더라도 기존 워터마킹 기법의 워터마킹을 효과적으로 제거한다.
기존 워터마킹 기법은 여분의, 독립적인 모델 구성 요소에 워터마킹을 삽입하여 증류 과정에서 제거되면서 워터마킹이 완전히 사라진다.
*Ingrain*은 메인 분류 작업에 사용되는 동일한 모델 경로에 워터마킹을 삽입함으로써 증류 공격에 강건하게 저항한다. 이로 인해 지식 증류 과정 동안 워터마킹이 유지된다.
제안된 방법은 프루닝 및 양자화와 같은 다른 일반적인 변환에 대해서도 기존 방법과 유사한 강건성을 유지한다.
ingrainer의 손실을 정규화 항으로 사용함으로써, 분류와 워터마킹 목적을 공동으로 최적화할 수 있으며, 이로 인해 저항성이 향상된다.
이 방법은 워터마킹 강건성과 모델 정확도 사이에 조절 가능한 트레이드오프를 허용하여 실용적 구현이 가능하다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.