[논문 리뷰] Untargeted Backdoor Watermark: Towards Harmless and Stealthy Dataset Copyright Protection
본 논문은 공개 소스 데이터셋 보호를 위한 비타깃 백도어 워터마크(UBW)를 제안하여 해롭지 않고 은밀한 소유권 검증을 가능하게 하며, UBW-P(오염 라벨)와 UBW-C(깨끗한 라벨), 그리고 가설 검정 기반의 검증 방법을 제시한다.
Deep neural networks (DNNs) have demonstrated their superiority in practice. Arguably, the rapid development of DNNs is largely benefited from high-quality (open-sourced) datasets, based on which researchers and developers can easily evaluate and improve their learning methods. Since the data collection is usually time-consuming or even expensive, how to protect their copyrights is of great significance and worth further exploration. In this paper, we revisit dataset ownership verification. We find that existing verification methods introduced new security risks in DNNs trained on the protected dataset, due to the targeted nature of poison-only backdoor watermarks. To alleviate this problem, in this work, we explore the untargeted backdoor watermarking scheme, where the abnormal model behaviors are not deterministic. Specifically, we introduce two dispersibilities and prove their correlation, based on which we design the untargeted backdoor watermark under both poisoned-label and clean-label settings. We also discuss how to use the proposed untargeted backdoor watermark for dataset ownership verification. Experiments on benchmark datasets verify the effectiveness of our methods and their resistance to existing backdoor defenses. Our codes are available at \url{https://github.com/THUYimingLi/Untargeted_Backdoor_Watermark}.
연구 동기 및 목표
- 데이터셋 소유권 검증을 재고하고 표적화된 백도어 워터마크의 보안 리스크를 확인한다.
- 해를 끼치지 않는 비결정적 모델 동작을 가능하게 하는 비타깃 백도어 워터마킹을 도입한다.
- 이중 최적화를 갖는 UBW-P(오염 라벨)와 UBW-C(깨끗한 라벨) 체계를 개발한다.
- UBW 관련 신호를 이용한 가설 검정에 기반한 데이터셋 소유권 검증 방법을 제안한다.
- 벤치마크 데이터셋에서 UBW의 효과 및 백도어 방어에 대한 저항성을 실험적으로 검증한다.
제안 방법
- 실제 라벨이 같은 샘플들 사이에서 예측이 얼마나 흩어져 있는지 측정하는 평균 예측 분산도 D_p를 정의한다.
- 수정된 데이터셋에서 학습하고 오염 샘플의 라벨을 무작위로 다시 라벨링하여 UBW-P를 도입한다.
- 라벨을 유지하면서 미분 가능한 목적함수와 오염된 부분집합을 통해 대리 분산도를 최대화하도록 이중 최적화를 사용하여 UBW-C를 개발한다.
- UBW-C의 계산 가능 최적화를 가능하게 하는 두 개의 미분가능한 분산도 대리값(D_s, D_c)을 제공한다.
- 무해한 입력과 오염된 입력 간의 쌍대 테스트를 이용한 가설 검정 기반 데이터셋 소유권 검증을 형식화한다 (H0: P_b = P_p + tau).
- UBW의 방어에 대한 강건성과 미세 조정 및 가지치기에 대한 저항성을 시연한다.
실험 결과
연구 질문
- RQ1비타깃 백도어 워터마크가 워터마크가 삽입된 데이터로 학습된 네트워크에서 비결정적(분산 가능)이지만 검출 가능한 동작을 유도할 수 있는가?
- RQ2UBW-P와 UBW-C를 효과성, 은밀성, 분산성의 균형을 맞추도록 어떻게 구성하고 최적화할 수 있는가?
- RQ3의심스러운 모델에 대해 안전하고 은밀한 데이터셋 소유권 검증을 가능하게 하는 UBW 기반 신호가 있는가?
- RQ4UBW 체계가 일반적인 백도어 방어 및 모델 수정 기법에 대해 저항성을 가지는가?
주요 결과
- UBW는 표적 백도어에 버금가는 높은 ASR 및 데이터셋 워터마킹 성능을 달성하면서도 많은 기준선보다 더 높은 분산성을 보여 비결정적 악의적 동작을 시사한다.
- UBW-P는 CIFAR-10과 ImageNet에서 강력한 ASR과 기준선 오염 라벨 공격보다 현저히 높은 D_p를 보인다.
- UBW-C는 다른 깨끗한 라벨 워터마크에 비해 은밀성이 우수하고 실전에서 상당한 ASR과 경쟁력 있는 D_p를 보인다.
- UBW 기반 검증은 여러 시나리오에서 높은 신뢰도(낮은 p값)로 무단 데이터셋 사용을 신뢰성 있게 식별하면서도 독립 모델에서의 거짓 긍정을 최소화한다.
- UBW는 미세 조정 및 가지치기 방어에 대한 저항성을 보이며 적응 방어하에서도 주목할 만한 ASR을 유지한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.