[論文レビュー] Effectiveness of Distillation Attack and Countermeasure on Neural Network Watermarking
この論文は、知識蒸留が、主な分類タスクから分離された水増し関連パラメータを削除することで、既存のニューラルネットワーク水増し技術を著しく弱体化させることを示している。これを補うために、著者らは*ingrain*を提唱する。これは正則化損失を介して水増しをモデルの主な予測に直接埋め込む、耐性の強い水増し手法であり、高い精度を維持したまま蒸留に対しても強い耐性を示す。
The rise of machine learning as a service and model sharing platforms has raised the need of traitor-tracing the models and proof of authorship. Watermarking technique is the main component of existing methods for protecting copyright of models. In this paper, we show that distillation, a widely used transformation technique, is a quite effective attack to remove watermark embedded by existing algorithms. The fragility is due to the fact that distillation does not retain the watermark embedded in the model that is redundant and independent to the main learning task. We design ingrain in response to the destructive distillation. It regularizes a neural network with an ingrainer model, which contains the watermark, and forces the model to also represent the knowledge of the ingrainer. Our extensive evaluations show that ingrain is more robust to distillation attack and its robustness against other widely used transformation techniques is comparable to existing methods.
研究の動機と目的
- 既存のニューラルネットワーク水増し技術が、特に知識蒸留を含むモデル変換に対してどれほど脆弱であるかを調査すること。
- 現在の水増し手法が蒸留の下で失敗する理由を特定すること。これは、水増し関連パラメータが主な分類タスクから分離されているためである。
- 蒸留や他の一般的なモデル変換に対して耐性を持つ新しい水増し手法を設計すること。
- 主なタスクの精度と性能を損なわせることなく、水増しがそのままであることを保証すること。
提案手法
- 秘密の水増しをエンコードし、正しい出力を生成する水増しキャリアデータセット上で、別個の「イングレインヤー」モデルを学習する。
- イングレインヤー・モデルの損失関数を、主な分類モデルの学習中に正則化項として使用する。
- 同じ学習データ上で、主なモデルを真のラベルとイングレインヤーの出力の両方に一致させるように共同最適化する。
- 正則化重みを調整して、水増しの耐性とモデルの精度のバランスをとる。
- 主な分類タスクに使用される同じニューラルパスウェイに水増しを埋め込むことで、主な機能からの独立性を低減する。
- 蒸留後でも、悪意のないデータに対する主なモデルの予測から水増しを回復可能にする。
実験結果
リサーチクエスチョン
- RQ1知識蒸留は、既存のニューラルネットワーク水増し技術が埋め込んだ水増しを効果的に削除できるか?
- RQ2モデルの精度を維持しているにもかかわらず、なぜ現在の水増し手法が蒸留の下で失敗するのか?
- RQ3主なタスクの性能を保ちながら、蒸留に対して水増しを耐性を持たせるにはどうすればよいか?
- RQ4水増しを主なモデルの予測プロセスに統合することで、モデル変換に対する耐性を高められるか?
主な発見
- 蒸留は、精度の損失がほとんどない状態でも、水増し関連パラメータが主な分類関数から分離されているため、既存の水増し手法からの水増しを効果的に削除する。
- 既存の水増し手法は、冗長で独立したモデル部品に水増しを埋め込んでいるため、蒸留時に破棄され、水増しが完全に消去される。
- *Ingrain*は、主な分類タスクに使用される同じモデルパスウェイに水増しを埋め込むことで、知識蒸留に対しても効果的に耐性を示す。
- 提案手法は、剪定や量子化などの他の一般的な変換に対しても、既存手法と同等の耐性を維持する。
- イングレインヤーの損失を正則化項として使用することで、分類と水増しの目的を共同で最適化でき、耐性が向上する。
- この手法により、水増しの耐性とモデル精度の間で調整可能なトレードオフが可能となり、実用的導入が可能になる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。