Skip to main content
QUICK REVIEW

[論文レビュー] Untargeted Backdoor Watermark: Towards Harmless and Stealthy Dataset Copyright Protection

Yiming Li, Yang Bai|arXiv (Cornell University)|Sep 27, 2022
Adversarial Robustness in Machine Learning被引用数 26
ひとこと要約

本論文は、オープンソースデータセット保護のための非標的バックドア水印(UBW)を提案し、害のないで潜伏的な所有権検証を実現します。UBW-P(poisoned labels)とUBW-C(clean labels)、および仮説検定に基づく検証方法を提示します。

ABSTRACT

Deep neural networks (DNNs) have demonstrated their superiority in practice. Arguably, the rapid development of DNNs is largely benefited from high-quality (open-sourced) datasets, based on which researchers and developers can easily evaluate and improve their learning methods. Since the data collection is usually time-consuming or even expensive, how to protect their copyrights is of great significance and worth further exploration. In this paper, we revisit dataset ownership verification. We find that existing verification methods introduced new security risks in DNNs trained on the protected dataset, due to the targeted nature of poison-only backdoor watermarks. To alleviate this problem, in this work, we explore the untargeted backdoor watermarking scheme, where the abnormal model behaviors are not deterministic. Specifically, we introduce two dispersibilities and prove their correlation, based on which we design the untargeted backdoor watermark under both poisoned-label and clean-label settings. We also discuss how to use the proposed untargeted backdoor watermark for dataset ownership verification. Experiments on benchmark datasets verify the effectiveness of our methods and their resistance to existing backdoor defenses. Our codes are available at \url{https://github.com/THUYimingLi/Untargeted_Backdoor_Watermark}.

研究の動機と目的

  • データセットの所有権検証を再検討し、標的型バックドア水印のセキュリティリスクを特定する。
  • 害のない、非決定論的なモデル挙動を可能にする非標的バックドアウォーターマーキングを導入する。
  • 階層的最適化を用いてUBW-P( poisoned-label)およびUBW-C(clean-label)方式を開発する。
  • UBW関連の信号を用いた仮説検定に基づくデータセット所有権検証法を提案する。
  • ベンチマークデータセット上でUBWの有効性とバックドア対策への耐性を経験的に検証する。

提案手法

  • 同じ真のラベルを共有するサンプルの予測がどれだけ散らばっているかを測る平均予測分散D_pを定義する。
  • 汚染サンプルをランダムにリレーベリングして改変データセットで学習することでUBW-Pを導入する。
  • ラベルを維持したまま、微分可能な目的関数と汚染サブセットを介して代理分散性を最大化する階層的最適化を用いてUBW-Cを開発する。
  • UBW-Cの実行可能な最適化を可能にする微分可能な分散性代理関数(D_sとD_c)を2つ提供する。
  • 良性入力と汚染入力のペアワイズ検定を用いた仮説検定に基づくデータセット ownership 検証を定式化する(H0: P_b = P_p + tau)。
  • UBWの防御に対する頑健性を実証し、ファインチューニングと剪定に対する耐性を示す。

実験結果

リサーチクエスチョン

  • RQ1非標的バックドア水印は、水印データで学習したネットワークにおいて、分散可能でかつ検出可能な挙動を誘発し得るか?
  • RQ2効果、隠密性、分散性のバランスを取るように、UBW-PとUBW-Cをどのように構築・最適化できるか?
  • RQ3UBWベースの信号は、怪しいモデルに対して害のない潜伏的なデータセット ownership 検証をサポートできるか?
  • RQ4UBWスキームは一般的なバックドア対策およびモデル改変技術に耐性があるか?

主な発見

  • UBWは、標的型バックドアと同等の高いASRとデータセット水印性能を達成しつつ、多くのベースラインよりも高い分散性を示し、非決定論的な悪意のある挙動を示唆する。
  • UBW-PはCIFAR-10およびImageNetで強いASRとbaseline poisoned-label attacksより有意に高いD_pを示す。
  • UBW-Cは他のクリーンラベル水印よりも優れた隠密性を提供し、実務での顕著なASRと競争力のあるD_pを示す。
  • UBWベースの検証は、複数のシナリオで高い信頼度(低いp値)で不正使用されたデータセットの使用を確実に識別でき、独立したモデルでの偽陽性を最小化する。
  • UBWはファインチューニングと剪定防御に対して耐性を示し、適応的防御下でも顕著なASRを維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。