[論文レビュー] Deep Neural Network Fingerprinting by Conferrable Adversarial Examples
本稿では、深層ニューラルネットワーク分類器のための新しいファングプリント手法を提案する。この手法は、補償可能(conferrable)な adversarial examples(敵対的入力)を用いる。補償可能な敵対的入力とは、サロゲートモデルでは唯一のターゲットラベルに誤分類されるが、参照モデルではそうではない、移譲可能な敵対的入力である。この手法は、再訓練された CIFAR-10 サロゲートモデルにおいて、完全な検出性能(ROC AUC = 1.0)を達成し、先行研究(ROC AUC = 0.63)を上回る。また、モデル抽出、微調整、プルーニング、蒸留攻撃に対して強い耐性を示す。
In Machine Learning as a Service, a provider trains a deep neural network and gives many users access. The hosted (source) model is susceptible to model stealing attacks, where an adversary derives a surrogate model from API access to the source model. For post hoc detection of such attacks, the provider needs a robust method to determine whether a suspect model is a surrogate of their model. We propose a fingerprinting method for deep neural network classifiers that extracts a set of inputs from the source model so that only surrogates agree with the source model on the classification of such inputs. These inputs are a subclass of transferable adversarial examples which we call conferrable adversarial examples that exclusively transfer with a target label from a source model to its surrogates. We propose a new method to generate these conferrable adversarial examples. We present an extensive study on the irremovability of our fingerprint against fine-tuning, weight pruning, retraining, retraining with different architectures, three model extraction attacks from related work, transfer learning, adversarial training, and two new adaptive attacks. Our fingerprint is robust against distillation, related model extraction attacks, and even transfer learning when the attacker has no access to the model provider's dataset. Our fingerprint is the first method that reaches a ROC AUC of 1.0 in verifying surrogates, compared to a ROC AUC of 0.63 by previous fingerprints.
研究の動機と目的
- 機械学習サービス(MLaaS)におけるモデル盗難攻撃の脅威に対処すること。この攻撃では、攻撃者がAPIアクセスを通じてサロゲートモデルを抽出する。
- 事後的に、モデル抽出や改変後でも検出可能な、受動的で耐性のあるファングプリント機構を開発すること。
- 移譲可能でないが、サロゲートモデルにのみ移譲される敵対的入力のサブクラス(補償可能な敵対的入力)を同定し、それを活用すること。
- 敵対的訓練や移譲学習を含む幅広い攻撃に対してファングプリントの耐性を評価し、先行手法と比較すること。
提案手法
- サロゲートモデルでのみ誤分類されるが、参照モデルではそうではない、新しいタイプの標的的かつ移譲可能な敵対的入力「補償可能な敵対的入力」を提案する。
- 敵対的入力がサロゲートモデルにのみ移譲される度合いを定量化するための「補償性(conferrability)」指標を導入する。
- サロゲートモデルへの移譲を最大化し、参照モデルへの移譲を最小化することで、高い補償性を達成するように最適化するアンサンブル敵対的攻撃(CEM)を開発する。
- 生成された補償可能な敵対的入力を、検査対象モデルが元のモデルのサロゲートであるかどうかを確認するための持続的ファングプリントとして用いる。
- 複数の補償可能な敵対的入力の予測の一致度に基づく検証メカニズムを採用し、サロゲートモデルと参照モデルを区別する。
- モデル抽出、微調整、プルーニング、蒸留、再訓練、移譲学習攻撃の各状況において、広範なアブレーションスタディを通じて耐性を評価する。
実験結果
リサーチクエスチョン
- RQ1サロゲートモデルにのみ移譲され、独立に訓練された参照モデルには移譲されない、移譲可能な敵対的入力のサブクラスを同定できるか?
- RQ2提案された補償可能な敵対的入力ファングプリントは、多様なモデル抽出および改変攻撃に対して、サロゲートモデルの検出にどの程度有効か?
- RQ3敵対的訓練や、事前学習モデルおよびドメインデータへのアクセスがある状況での移譲学習といった、適応的攻撃に対して、ファングプリントの限界は何か?
- RQ4攻撃者が知識蒸留、再訓練、または微調整を用いて検出を回避する場合、ファングプリントはどの程度耐性を保つのか?
- RQ5再訓練されたモデルにおけるROC AUCという指標で、ファングプリントの検出性能は先行研究と比べてどのように定量的に優れているか?
主な発見
- 提案されたファングプリントは、再訓練された CIFAR-10 サロゲートモデルの検証において、完全なROC AUC(1.0)を達成し、先行研究(ROC AUC = 0.63)を著しく上回る。
- 知識蒸留、ノックオフネットワーク、JagielskiおよびPapernotの手法に基づくモデル抽出攻撃に対しても、ファングプリントは耐性を示す。
- 微調整、重みプルーニング、および異なるアーキテクチャでの再訓練に対しても、ファングプリントは耐性を示し、サロゲートモデルと参照モデルの間で平均CAEAcc差が約30%を維持する。
- 敵対的訓練を初期から実施した場合、ファングプリントは削除されないが、ε=0.025の条件下ではCAEAccが15%に低下するため、特定の攻撃に対しては脆弱であることが示された。
- 攻撃者が提供元のデータセット(例:CINIC-10)にアクセスできない場合、移譲学習に対してもファングプリントは耐性を示すが、ImageNet32の事前学習モデルとCIFAR-10データにアクセスできる場合は、ファングプリントが削除される可能性がある。
- 信頼度分析の結果、Hitajら(2019)が提案した検出回避手法に対しても、ファングプリントは非回避的であることが確認され、既知の回避技術に対しても耐性があることが裏付けられた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。