Skip to main content
QUICK REVIEW

[論文レビュー] High Accuracy and High Fidelity Extraction of Neural Networks

Matthew Jagielski, Nicholas Carlini|arXiv (Cornell University)|Sep 3, 2019
Adversarial Robustness in Machine Learning参考文献 57被引用数 55
ひとこと要約

本論文はモデル抽出を精度と忠実度の観点で分類し、学習ベースの攻撃が精度抽出の効率を向上させることを示し、直接重み抽出のための実用的な機能的に同等な抽出攻撃を初めて提案し、大規模な生産グレードのモデルでの実現性をデモンストレーションする。

ABSTRACT

In a model extraction attack, an adversary steals a copy of a remotely deployed machine learning model, given oracle prediction access. We taxonomize model extraction attacks around two objectives: *accuracy*, i.e., performing well on the underlying learning task, and *fidelity*, i.e., matching the predictions of the remote victim classifier on any input. To extract a high-accuracy model, we develop a learning-based attack exploiting the victim to supervise the training of an extracted model. Through analytical and empirical arguments, we then explain the inherent limitations that prevent any learning-based strategy from extracting a truly high-fidelity model---i.e., extracting a functionally-equivalent model whose predictions are identical to those of the victim model on all possible inputs. Addressing these limitations, we expand on prior work to develop the first practical functionally-equivalent extraction attack for direct extraction (i.e., without training) of a model's weights. We perform experiments both on academic datasets and a state-of-the-art image classifier trained with 1 billion proprietary images. In addition to broadening the scope of model extraction research, our work demonstrates the practicality of model extraction attacks against production-grade systems.

研究の動機と目的

  • モデル抽出における2つの敵対的目的を動機づけ defined:精度と忠実度。
  • 既存の抽出攻撃を2次元の目的空間内で体系化する。
  • 高忠実度を達成するための学習ベース抽出の限界を示す。
  • 直接重み回収のための実用的な機能的同等抽出を開発する。
  • 学術データセットと最新の生産分類器の両方に対する攻撃を示す。

提案手法

  • 攻撃目的と能力の分類(精度、忠実度、機能的同等抽出)。
  • 犠牲モデルをラベリングオラクルとして活用しタスク精度を最大化する学習ベース抽出を開発。
  • 高忠実度抽出のための学習ベース手法の本質的限界を証明。
  • 入力-出力アクセスから2層ネットワークの重みを回復する実用的な機能的同等抽出攻撃を提案。
  • ImageNet規模のモデル(WSL)と標準データセット(SVHN、CIFAR-10)で攻撃を評価。
  • 問い合わせ効率を改善する半教師あり学習や混合手法(回転損失、MixMatch)を検討。

実験結果

リサーチクエスチョン

  • RQ1現実的な問い合わせアクセス制約の下で機能的に同等の忠実度を達成するモデル抽出は可能か。
  • RQ2学習ベースの抽出と忠実度重視の抽出は問い合わせ効率とスケーラビリティの点でどう比較されるか。
  • RQ3高忠実度のための学習ベース抽出の基本的な制限は何か、データ側チャンネルなしに直接重み回収を達成できるか。
  • RQ4ラベルなしデータと半教師あり技術は大規模モデルの抽出攻撃の実現性にどう影響するか。
  • RQ5巨額の独自データで学習された生産グレードのモデルはブラックボックスアクセス下で実用的な抽出に脆弱か。

主な発見

  • 学習ベースの抽出は精度抽出を改善し、従来法より問い合わせ効率が高く、何百万ものパラメータへと規模拡張可能。
  • ラベルなしデータと半教師あり技術(回転損失、MixMatch)は、より少ない問い合わせで抽出性能を大幅に向上させる。
  • 機能的同等抽出攻撃は、入力-出力アクセスだけで2層ネットワークの重みを直接回復する実用的な手法である。
  • 学習ベースのアプローチには本質的な忠実度の限界があり、実験では制御された非決定性の下で忠実度の上限が約93%付近と示される。
  • MixMatchを用いた250問の問い合わせで、SVHNとCIFAR-10においてオラクル精度にほぼ匹敵する水準を、ラベル付き問い合わせを大幅に削減して達成可能。
  • 本研究は生産グレードのシステムに対するモデル抽出の実用性を実証し、抽出の困難さに関する理論的境界を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。