[論文レビュー] How to Prove Your Model Belongs to You: A Blind-Watermark based Framework to Protect Intellectual Property of DNN
本論文は、DNNsのための盲検水印IP Pフレームワークを提案し、モデルに識別不能なキーサンプルを埋め込み、所有権を証明し、回避に対抗し、不正な主張に抵抗するためのもので、データセットとアーキテクチャを横断する強力な実証結果を示す。
Deep learning techniques have made tremendous progress in a variety of challenging tasks, such as image recognition and machine translation, during the past decade. Training deep neural networks is computationally expensive and requires both human and intellectual resources. Therefore, it is necessary to protect the intellectual property of the model and externally verify the ownership of the model. However, previous studies either fail to defend against the evasion attack or have not explicitly dealt with fraudulent claims of ownership by adversaries. Furthermore, they can not establish a clear association between the model and the creator's identity. To fill these gaps, in this paper, we propose a novel intellectual property protection (IPP) framework based on blind-watermark for watermarking deep neural networks that meet the requirements of security and feasibility. Our framework accepts ordinary samples and the exclusive logo as inputs, outputting newly generated samples as watermarks, which are almost indistinguishable from the origin, and infuses these watermarks into DNN models by assigning specific labels, leaving the backdoor as the basis for our copyright claim. We evaluated our IPP framework on two benchmark datasets and 15 popular deep learning models. The results show that our framework successfully verifies the ownership of all the models without a noticeable impact on their primary task. Most importantly, we are the first to successfully design and implement a blind-watermark based framework, which can achieve state-of-art performances on undetectability against evasion attack and unforgeability against fraudulent claims of ownership. Further, our framework shows remarkable robustness and establishes a clear association between the model and the author's identity.
研究の動機と目的
- DNNの知的財産を保護する必要性を動機づけ、従来のウォーターマーキング手法の限界に対処する。
- モデルを作成者のアイデンティティに紐づける盲検 watermark-based IPP フレームワークの提案。
- 複数のデータセットとアーキテクチャでのプロトタイプと実証評価を通じて実現可能性と実用性を示す。
- 回避攻撃と不正な所有権主張に対する頑健性を評価する。
- ウォーターマーキングが主要モデルの性能に最小限の影響を与えつつ、信頼性の高い所有権検証を実現することを示す。
提案手法
- e を軽量エンコーダ、l を独占ロゴとする key samples x^key = G(e, x, l) を生成して水印を埋め込む。データ分布 P_data と鍵サンプル分布 P_e を整合させるため、識別器を用いたオートエンコーダ風の設定を訓練する。
- P_data と P_e の間の KL 発散を最小化する敵対的/識別器目的を使用し、サンプルの識別不能性を保持するために SSIM ベースの再構成損失を組み込む。
- ホスト DNN にバックドアを仕込み、x^key を事前定義されたラベル t^key にマップし、キ―サンプルに対する高精度で所有権検証を可能にする。
- 所有者がキ―サンプルを用いてリモートモデルを照会し、acc_g(x^key, t^key) が閾値を超えるかを確認する検証手順を提供する。
- 再構成忠実度、SSIM、および敵対損失を組み合わせた結合目的 O_e を詳述し、訓練中のエンコーダ、識別器、ホストモデルを導く。
- エンコーダ、識別器、ホスト DNN を含む全体のパイプラインを概説し、訓練プロトコルとハイパーパラメータ設定を提示する。
実験結果
リサーチクエスチョン
- RQ1盲水印 IPP フレームワークは、元のタスクへの忠実度を維持しつつ、DNN の所有権を信頼性高く証明できるか?
- RQ2提案手法は、従来のウォーターマーキング法より回避攻撃や不正な所有権主張に耐性があるか?
- RQ3ウォーターマーク分布は元のデータ分布に近く、知覚不能性と頑健性を確保しているか?
- RQ4実用的なシナリオの下で、モデルと作成者のアイデンティティの明確な結びつきを確立できるか?
- RQ5複数のアーキテクチャとデータセットにおける水印埋め込みがモデル精度に与える影響は?
主な発見
- ウォーターマークされたモデルは、ウォーターマークなしのモデルとほぼ同じ精度を維持し、忠実度の低下は平均0.66%、最大で0.14%にとどまる。
- キーサンプルは高い検証精度を達成し、ウォーターマークされたモデルはキーサンプルで90%以上、時には100%の精度を達成する。
- 盲水印アプローチは回避攻撃に対して検出不能を達成し、拡張テストでは検出器の性能はランダムと同程度(AUC 約0.5〜0.65)に留まる。
- このフレームワークは合理的な仮定の下で有効なキーサンプルを偽造することを難しくすることで、不正な所有権主張に対して頑健性を示す。
- MNISTと CIFAR-10 に対する 15 個のホスト DNN での実験は、主要タスクへの影響を抑えつつ所有権検証の成功を示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。