[논문 리뷰] Piracy Resistant Watermarks for Deep Neural Networks
이 논문은 초기 학습 중 정상 분류 정확도와 워터마크 간의 강력한 종속성을 강제하여 도메인 신경망에 도용 방지 워터마크를 삽입하는 새로운 방법인 널 임베딩을 제안한다. 기존의 점진적 학습에 의존하는 방법들과는 달리, 널 임베딩은 모델 성능을 손상시키지 않고 워터마크를 제거하거나 새로운 워터마크를 삽입하는 것을 방지하여 다양한 모델과 작업에서 강력한 도용 방지 성능을 달성한다.
As companies continue to invest heavily in larger, more accurate and more robust deep learning models, they are exploring approaches to monetize their models while protecting their intellectual property. Model licensing is promising, but requires a robust tool for owners to claim ownership of models, i.e. a watermark. Unfortunately, current designs have not been able to address piracy attacks, where third parties falsely claim model ownership by embedding their own "pirate watermarks" into an already-watermarked model. We observe that resistance to piracy attacks is fundamentally at odds with the current use of incremental training to embed watermarks into models. In this work, we propose null embedding, a new way to build piracy-resistant watermarks into DNNs that can only take place at a model's initial training. A null embedding takes a bit string (watermark value) as input, and builds strong dependencies between the model's normal classification accuracy and the watermark. As a result, attackers cannot remove an embedded watermark via tuning or incremental training, and cannot add new pirate watermarks to already watermarked models. We empirically show that our proposed watermarks achieve piracy resistance and other watermark properties, over a wide range of tasks and models. Finally, we explore a number of adaptive counter-measures, and show our watermark remains robust against a variety of model modifications, including model fine-tuning, compression, and existing methods to detect/remove backdoors. Our watermarked models are also amenable to transfer learning without losing their watermark properties.
연구 동기 및 목표
- 기존 DNN 워터마킹 기법에서 공격자가 점진적 학습을 통해 위조 워터마크를 삽입할 수 있는 비도용 방지 기능의 부재를 해결한다.
- 현재 워터마킹 기법의 근본적인 취약점을 극복한다. 이는 점진적 학습에 의존하기 때문에 공격자가 워터마크를 덮어쓰거나 추가할 수 있기 때문이다.
- 모델의 피니팅, 압축, 또는 전이 학습 조건에서도 도용 불가능하고 지속적이며 검증 가능한 워터마킹 시스템을 설계한다.
- 워터마크가 삽입된 모델에 새로운 워터마크를 삽입하려는 尝시는 분류 정확도가 치명적인 손실을 입히며, 악성 사용을 억제한다.
제안 방법
- 널 임베딩 도입: 초기 모델 학습 중 워터마크 비트 문자열을 제약 조건으로 삽입하여 워터마크와 모델의 정상 분류 행동 간 강력한 종속성을 형성한다.
- 공개 키 암호화 및 검증 가능한 서명을 사용하여 워터마크 비트 문자열을 모델 소유자와 안전하게 연결함으로써 인증 및 검증을 가능하게 한다.
- 학습 중 최적화 과정을 수정하여 모델 가중치가 정확한 분류와 워터마크 일관성 둘 다를 만족하도록 제약을 걸어 워터마크를 삽입한다.
- 모델의 원래 워터마크 제약 조건과 충돌하기 때문에 점진적 학습이 워터마크를 수정하거나 추가하는 것을 방지함으로써 성능 저하를 초래한다.
- 초기 학습 단계의 복구 불가능성을 활용하여 워터마크를 제거하거나 교체하려면 다시 처음부터 재학습해야 함을 보장한다.
- 전이 학습, 모델 압축, 기타 일반적인 모델 수정 조건에서도 워터마크가 그대로 유지되어 소유권 증명이 보존되도록 설계한다.
실험 결과
연구 질문
- RQ1기존의 DNN 워터마킹 기법에서 공격자가 이미 워터마크가 삽입된 모델에 위조 워터마크를 삽입할 수 있는가에 대해 진정으로 도용에 저항하는 워터마킹 기법을 설계할 수 있는가?
- RQ2기존 워터마킹 기법이 도용 공격에 취약한 이유는 무엇이며, 이러한 취약성을 초래하는 아키텍처나 학습 특성은 무엇인가?
- RQ3점진적 학습이나 피니팅을 통해 워터마크를 제거하거나 교체하는 것을 방지할 수 있는 방식으로 워터마크를 삽입할 수 있는가?
- RQ4압축, 전이 학습, 백도어 제거 기법 등 다양한 모델 수정 조건에서 제안된 워터마크의 강건성은 어느 정도인가?
- RQ5모델 추출 또는 분포 외 데이터로 재학습하는 경우에도 워터마크가 유지되고 검증될 수 있는가?
주요 결과
- 정규화자 기반 및 아티팩트 기반 기법을 포함한 기존 워터마킹 기법은 공격자가 점진적 학습을 통해 새로운 워터마크를 성공적으로 삽입할 수 있어 도용 공격에 취약하다.
- 널 임베딩은 점진적 학습이 워터마크를 수정하거나 추가하는 것을 완전히 방지하며, 이러한 尝시는 모델의 정상 분류 정확도가 허용 수준 이하로 떨어지므로 성능 저하를 초래한다.
- 널 임베딩된 모델을 대상으로 한 도용 공격는 다시 처음부터 학습하는 것과 유사한 성능 손실을 초래하여 계산적·실질적으로 공격가능성이 떨어진다.
- 워터마크는 모델 피니팅, 압축, 기존 백도어 탐지/제거 기법 조건에서도 강건하게 유지되어 소유권 증명이 보존된다.
- 워터마크가 삽입된 모델는 전이 학습과 호환되며, 다양한 최종 작업에서 워터마크 무결성이 유지된다.
- 분포 외 데이터(예: ImageNet, YouTube Faces)를 사용한 모델 추출 공격는 원래 데이터셋 크기의 255% 이상이 필요하며, 계산 비용과 자원 소모가 매우 크며, 정확도 향상은 오직 원래 데이터셋 크기의 255% 이상일 때에나 달성 가능하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.