[논문 리뷰] Turning Your Weakness Into a Strength: Watermarking Deep Neural Networks by Backdooring
본 논문은 깊은 신경망에 강력한 백도어를 삽입하여 블랙박스 워터마킹 스킴을 제시하고, 소유권 검증의 정확성, 제거 불가성, 위조 불가를 보장하는 암호학적 프레임워크를 제시한다.
Deep Neural Networks have recently gained lots of success after enabling several breakthroughs in notoriously challenging problems. Training these networks is computationally expensive and requires vast amounts of training data. Selling such pre-trained models can, therefore, be a lucrative business model. Unfortunately, once the models are sold they can be easily copied and redistributed. To avoid this, a tracking mechanism to identify models as the intellectual property of a particular vendor is necessary. In this work, we present an approach for watermarking Deep Neural Networks in a black-box way. Our scheme works for general classification tasks and can easily be combined with current learning algorithms. We show experimentally that such a watermark has no noticeable impact on the primary task that the model is designed for and evaluate the robustness of our proposal against a multitude of practical attacks. Moreover, we provide a theoretical analysis, relating our approach to previous work on backdooring.
연구 동기 및 목표
- 학습된 신경망의 소유권 검증을 가능하게 하여 MLaaS에서의 모델 재배포 위험을 동기부여하고 대응한다.
- 모델의 정확도를 보존하면서 탐지 가능한 워터마크를 삽입하는 블랙박스 워터마킹 방법을 제안한다.
- 워터마킹과 백도어링을 연결하는 암호학적 형식을 제공하고 제거 불가성, 위조 불가성과 같은 보안 특성을 분석한다.
- 커밋먼트를 사용하여 비밀히 확인 가능(또는 잠재적으로 공개적으로 확인 가능)한 소유권 증명을 달성하는 방법을 제시한다.
제안 방법
- ML에서의 백도어를 트리거 세트에 대한 통제된 잘못 표기로 정의하고 워터마킹의 강력한 백도어로서의 강건성 요건을 형식화한다.
- 강력한 백도어 메커니즘과 통계적으로 은닉된 커밋먼트를 통해 KeyGen, Mark, Verify 절차를 이용하여 워터마킹 스킴을 구성한다.
- SampleBackdoor를 사용하여 트리거 세트를 생성하고, 그것들을 커밋먼트로 인코딩하여 검증 키를 형성한다; Backdoor 루틴을 통해 백도어를 삽입하고, 트리거 라벨에 대한 분류와 커밋먼트 개봉을 확인하여 검증한다.
- 암호학적 가정 하에서 정확성, 기능성 보존 동작, 실질적인 소유권, 제거 불가성 및 위조 불가성을 증명한다.
- 비공개 대 공개 검증 가능성에 대한 확장과 트리거 세트의 크기 및 배포에 대한 실용적 고려사항을 논의한다.
실험 결과
연구 질문
- RQ1주요 작업 성능 저하 없이 백도어 원리를 활용하여 신경망에 워터마킹을 적용하려면 어떻게 해야 하는가?
- RQ2어떤 암호 도구(예: 커밋먼트)가 워터마킹된 모델에 대한 안전하고 검증 가능한 소유권 증명을 가능하게 하는가?
- RQ3워터마크가 제거, 위조 또는 적대적 수정에 대해 견고한 조건은 무엇인가?
- RQ4반복적이거나 무제한의 증언으로 워터마크 검증을 비공개 또는 공개적으로 검증 가능하게 만들 수 있는가?
주요 결과
- 강력한 백도어를 삽입하고 암호학적 커밋먼트를 사용하여 정확성을 해치지 않고 소유권을 검증함으로써 강력한 워터마킹 접근법을 달성할 수 있다.
- 해당 구성은 명시된 암호학적 가정하에서 정확성, 기능성 보존 동작, 실질적인 소유권, 제거 불가성 및 위조 불가성을 제공한다.
- 프레임워크는 비공개 검증을 지원하고 다수의 백도어 또는 강화된 검증 프로토콜을 통해 공개 검증 가능성으로 가는 경로를 제시한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.