[論文レビュー] Prediction Poisoning: Towards Defenses Against DNN Model Stealing Attacks
本論文は、ブラックボックス予測を撹乱して盗用攻撃者の学習目的を汚染する MAD という能動的防御を提案し、正当利用時の精度への影響を最小限に抑えつつ、盗用モデルの精度を大幅に低下させます。
High-performance Deep Neural Networks (DNNs) are increasingly deployed in many real-world applications e.g., cloud prediction APIs. Recent advances in model functionality stealing attacks via black-box access (i.e., inputs in, predictions out) threaten the business model of such applications, which require a lot of time, money, and effort to develop. Existing defenses take a passive role against stealing attacks, such as by truncating predicted information. We find such passive defenses ineffective against DNN stealing attacks. In this paper, we propose the first defense which actively perturbs predictions targeted at poisoning the training objective of the attacker. We find our defense effective across a wide range of challenging datasets and DNN model stealing attacks, and additionally outperforms existing defenses. Our defense is the first that can withstand highly accurate model stealing attacks for tens of thousands of queries, amplifying the attacker's error rate up to a factor of 85$ imes$ with minimal impact on the utility for benign users.
研究の動機と目的
- ブラックボックス問合せによるモデル機能盗用を動機づけ、価値ある DNN モデルに対する関連リスクを形式的に定式化する。
- 防御者の有用性を維持しつつ、予測を撹乱して attacker の訓練目的を汚染する能動的防御を提案する。
- 有用性とシンプルックス制約の下で摂動を生成する実用的なソルバーを開発する。
- 複数の被害モデル、データセット、および盗用攻撃に対する防御の頑健性を示す。
- 非再現性と攻撃緩和の効率性の改善を確立するため、ベースライン防御と比較する。
提案手法
- 防御を、 attacker の勾配と defender の汚染勾配との間の角度偏差を最大化することとして、有用性制約の下で定式化する。
- defender のパラメータに対する対数確率の代理ヤコビ行列 G を用いて attacker 勾配をモデル化する。
- 後分布予測 y を摂動して y~ を得、角度偏差を最大化する一方で y~ を確率的シンプルックス内かつ摂動予算 epsilon 内に保つ。
- 勾配ベースの最適化を、シンプルックスの極点を探索する2段階のソルバーで近似し、元の y との凸結合によって摂動を形成する。
- MAD-argmax という変種を導入し、摂動を argmax に沿わせる制約を追加することでトップ-1 ラベルを保持する。
- six の被害モデルと複数データセット、4つの盗用攻撃を用いて評価し、reverse-sigmoid、random noise、DP-SGD などのベースライン防御と比較する。
実験結果
リサーチクエスチョン
- RQ1能動的な予測の摂動は、 defender の有用性を過度に損なうことなく、盗用モデルの性能を効果的に低下させられるか。
- RQ2defender と attacker の訓練勾配間の角度偏差を最大化することは、現実的な予算の下でさまざまなモデル盗用攻撃を頑健に崩せるか。
- RQ3MAD は、非再現性、有用性、摂動の大きさの点で、既存の摂動ベース防御と比較してどのように優れているか。
- RQ4CIFAR/CUB200 などのより強力な DNN を含む多様なデータセットと被害者アーキテクチャに対して防御は有効か。
- RQ5攻撃者はどのような対策を現実的に採用しうるか、そして MAD はそのようなサブバージョンに対してどれだけ耐性があるか。
主な発見
- MAD は、 tested datasets や攻撃のすべてで攻撃者の性能を一貫して低下させ、摂動が小さい場合には defender の精度が undefended レベルに近いままである。
- MNIST では、防御は attacker の精度を最大で約半分程度低下させることができる(例: jbtop3 で約 52% 減少)一方 defender の精度の損失は 1% 未満である。
- CUB200 のようなデータセットでは、最も強力な攻撃の精度が小さな defender 有用性の損失(約 2%)で大幅に低下する(例: Knockoff 攻撃で 23%)。
- MAD-argmax はトップ-1 ラベルを保持しつつ attacker の性能を低下させ、競争力のある非再現性を低摂動で達成する。
- MAD は baseline defenses(reverse-sigmoid、random noise、DP-SGD)よりも非再現性が同等か高いまま、より低い摂動で上回る。
- アブレーション研究では、勾配ベースの G と標的型極点摂動が決定的であることが示され、ランダム摂動は性能が劣る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。