QUICK REVIEW

[論文レビュー] Piracy Resistant Watermarks for Deep Neural Networks

Huiying Li, Emily Wenger|arXiv (Cornell University)|Oct 2, 2019

Adversarial Robustness in Machine Learning参考文献 43被引用数 31

ひとこと要約

本論文では、初期学習中に通常の分類精度とトレーニング中のウォーターマークの間に強い依存関係を強制することで、著作権保護に強いウォーターマークを深層ニューラルネットワークに埋め込む、新しい手法「ノルム埋め込み（null embedding）」を提案する。従来の手法とは異なり、段階的学習に依存するのではなく、攻撃者がウォーターマークを削除したり、新たなウォーターマークを追加したりするにはモデル性能を損なう必要があるため、多様なモデルやタスクにおいても高い著作権保護性を達成する。

ABSTRACT

As companies continue to invest heavily in larger, more accurate and more robust deep learning models, they are exploring approaches to monetize their models while protecting their intellectual property. Model licensing is promising, but requires a robust tool for owners to claim ownership of models, i.e. a watermark. Unfortunately, current designs have not been able to address piracy attacks, where third parties falsely claim model ownership by embedding their own "pirate watermarks" into an already-watermarked model. We observe that resistance to piracy attacks is fundamentally at odds with the current use of incremental training to embed watermarks into models. In this work, we propose null embedding, a new way to build piracy-resistant watermarks into DNNs that can only take place at a model's initial training. A null embedding takes a bit string (watermark value) as input, and builds strong dependencies between the model's normal classification accuracy and the watermark. As a result, attackers cannot remove an embedded watermark via tuning or incremental training, and cannot add new pirate watermarks to already watermarked models. We empirically show that our proposed watermarks achieve piracy resistance and other watermark properties, over a wide range of tasks and models. Finally, we explore a number of adaptive counter-measures, and show our watermark remains robust against a variety of model modifications, including model fine-tuning, compression, and existing methods to detect/remove backdoors. Our watermarked models are also amenable to transfer learning without losing their watermark properties.

研究の動機と目的

従来のDNNウォーターマーク技術では、段階的学習に依存しているため、攻撃者が段階的学習によって偽のウォーターマークを埋め込むことができるという、著作権保護の欠如という深刻な問題に対処すること。
現在のウォーターマーク手法が段階的学習に依存しているという根本的な脆弱性を克服し、攻撃者がウォーターマークを上書きまたは追加できるのを防ぐこと。
モデルの微調整、圧縮、移行学習などの状況下でも、偽造不可能で、持続可能かつ検証可能なウォーターマークシステムを設計すること。
ウォーターマークが埋め込まれたモデルに対して新しいウォーターマークを埋め込もうとする試みが、分類精度を著しく低下させることで、悪意ある利用を抑止すること。

提案手法

ノルム埋め込みを導入：ウォーターマークのビット列を初期モデル学習中に制約として埋め込み、ウォーターマークとモデルの通常の分類動作との間に強い依存関係を構築する。
公開鍵暗号と検証可能な署名を用いて、ウォーターマークのビット列をモデル所有者に安全に束縛し、認証と検証を可能にする。
トレーニング中の最適化プロセスを変更することで、モデルの重みが正確な分類とウォーターマークの一貫性の両方を満たすように制約を課す。
任意の段階的学習がウォーターマークを変更または追加できないようにし、そのような試みが元のウォーターマーク制約と矛盾することで、モデル精度が低下するように設計する。
初期学習フェーズの不可逆性を活用し、再訓練を完全に再開しない限りウォーターマークを削除または置き換えることが不可能であることを保証する。
移行学習、モデル圧縮、その他の一般的なモデル変更の後でもウォーターマークが保持されることを設計し、所有権証明を維持する。

実験結果

リサーチクエスチョン

RQ1攻撃者が既にウォーターマークが埋め込まれたモデルに偽のウォーターマークを埋め込むことができる、真正の著作権保護に強いDNNウォーターマークスキームを設計できるか？
RQ2既存のウォーターマーク技術がなぜ著作権保護攻撃に対して脆弱であるのか、またその脆弱性を生じさせるアーキテクチャ的または学習的特性は何か？
RQ3段階的学習や微調整によってウォーターマークの削除や置き換えを防げるような方法でウォーターマークを埋め込むことができるか？
RQ4圧縮、移行学習、バックドア検出・削除技術などのさまざまなモデル変更に対して、提案手法のウォーターマークはどれほど頑健か？
RQ5分布外データを用いたモデル抽出や再学習が行われた場合でも、ウォーターマークは保持され、検証可能か？

主な発見

正則化ベースおよびアーティファクトベースの手法を含む、従来のウォーターマーク手法は、段階的学習による攻撃に対して脆弱であり、攻撃者が成功裏に新たなウォーターマークを埋め込める。
ノルム埋め込みは、段階的学習によるウォーターマークの変更や追加を完全に防止する。このような試みは、モデルの通常の分類精度を許容可能な閾値以下に低下させる。
ノルム埋め込みモデルに対する著作権保護攻撃は、再訓練から始めることと同等の性能低下を引き起こし、計算的および実用的に不可能な攻撃となる。
微調整、圧縮、および既存のバックドア検出・削除技術に対してもウォーターマークは頑健であり、所有権証明が維持される。
ウォーターマーク付きモデルは移行学習に対しても互換性があり、さまざまな下流タスクにおいてもウォーターマークの整合性が保たれる。
分布外データ（例：ImageNet、YouTube Faces）を用いたモデル抽出攻撃は、元のデータセットサイズの255％以上を必要とし、再訓練よりもはるかに多くのデータと計算コストを要する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。