QUICK REVIEW

[論文レビュー] PRADA: Protecting against DNN Model Stealing Attacks

Mika Juuti, Sebastian Szyller|arXiv (Cornell University)|May 7, 2018

Adversarial Robustness in Machine Learning参考文献 46被引用数 33

ひとこと要約

PRADA は、クライアントからの連続的なAPIクエリの分布を分析することで、深層ニューラルネットワーク（DNN）モデル盗難攻撃を検出する画期的で汎用的な防御手法である。PRADAは、通常（ガウス分布に従う）のクエリパターンからの逸脱を特定することで、過去のすべてのモデル抽出攻撃を100％の正確性とゼロの誤検出で検出でき、多様なDNNモデルおよび入力データタイプに効果的に機能する軽量でステートフルな検出メカニズムを提供する。

ABSTRACT

Machine learning (ML) applications are increasingly prevalent. Protecting the confidentiality of ML models becomes paramount for two reasons: (a) a model can be a business advantage to its owner, and (b) an adversary may use a stolen model to find transferable adversarial examples that can evade classification by the original model. Access to the model can be restricted to be only via well-defined prediction APIs. Nevertheless, prediction APIs still provide enough information to allow an adversary to mount model extraction attacks by sending repeated queries via the prediction API. In this paper, we describe new model extraction attacks using novel approaches for generating synthetic queries, and optimizing training hyperparameters. Our attacks outperform state-of-the-art model extraction in terms of transferability of both targeted and non-targeted adversarial examples (up to +29-44 percentage points, pp), and prediction accuracy (up to +46 pp) on two datasets. We provide take-aways on how to perform effective model extraction attacks. We then propose PRADA, the first step towards generic and effective detection of DNN model extraction attacks. It analyzes the distribution of consecutive API queries and raises an alarm when this distribution deviates from benign behavior. We show that PRADA can detect all prior model extraction attacks with no false positives.

研究の動機と目的

最適化された合成クエリとハイパーパramータチューニングを用いた、効果的で汎用的なDNNモデル抽出攻撃の実現可能性を示すこと。
モデル抽出成功に影響を与える主な要因、例えばハイパーパramータの選択、出力精度（確率 vs. ラベル）、および代替モデルのアーキテクチャを特定すること。
PRADA を開発すること。これは、1つのクライントからの連続クエリの分布の逸脱を監視することで、モデル抽出攻撃を検出する、最初の汎用的でステートフルな防御手法である。
モデルやデータ分布の仮定に依存せず、多様なDNNモデルおよび入力データタイプに効果的な検出メカニズムを提供すること。
MLaaS やAPIホスティングモデルに対するモデル盗難攻撃を実用的かつオープンソースで保護するソリューションを提供し、正当なクライアントのサービス利用を維持すること。

提案手法

最適化手法を用いて情報量を最大化する合成クエリを生成することで、ターゲットモデルの予測APIからの情報抽出を最適化する新しいモデル抽出攻撃を提案する。
交差検証を用いたハイパーパramータサーチを採用し、代替モデルの性能を向上させ、固定またはランダムなハイパーパramータ選択を上回る。
予測出力形式（クラスラベル vs. 確率値）が代替モデルの精度および adversarial 例の転送性に与える影響を分析する。
正常な動作をガウス分布としてモデル化するステートフルな防御として PRADA を設計する。
クエリ分布が期待されるガウス分布から著しく逸脱した場合にアラームを発動させ、潜在的なモデル抽出活動を検出する。
統計的仮説検定（例：コルモゴロフ・スミルノフ検定）を用いてクエリシーケンスにおける非ガウス的挙動を検出することで、モデルやデータ分布の知識を必要とせずにリアルタイム検出を実現する。

実験結果

リサーチクエスチョン

RQ1合成クエリ生成とトレーニングハイパーパramータの最適化により、モデル抽出攻撃の性能を著しく向上させることができるか？
RQ2予測確率値の使用とクラスラベルの使用が、adversarial 例の転送性および代替モデルの精度にどのように影響するか？
RQ3ターゲットモデルと代替モデルのアーキテクチャの類似度が、モデル抽出攻撃の成功にどの程度影響を与えるか？
RQ4モデルやデータ分布の仮定なしに、多様なDNNモデルおよび入力データタイプに適応可能な汎用的でステートフルな検出メカニズムを設計できるか？
RQ5トレーニングデータ分布やモデルアーキテクチャの事前知識なしに、モデル盗難攻撃を検出することは可能か？

主な発見

提案されたモデル抽出攻撃は、先行する最先端手法と比較して、予測精度が最大46ポイント高く、adversarial 例の転送性も29〜44ポイント高い。
交差検証を用いたハイパーパramータサーチは、代替モデルの性能を顕著に向上させ、固定またはランダムなハイパーパramータ選択を上回る。
adversarial 例の高い転送性を実現するには予測確率値が不可欠であるが、クラスラベルのみで十分に高い代替モデルの精度が達成できる。
代替モデルに同一アーキテクチャを用いることで、より高い転送性が得られるが、より複雑なアーキテクチャは予測精度を向上させることができる。
PRADA は、過去のすべてのモデル抽出攻撃を100％の検出率とゼロの誤検出で検出でき、多様な健全なデータ分布でもテストされた結果、同様の効果を示した。
PRADA は異なるDNNモデルおよび入力データタイプにわたり有効であり、正当な予測サービスのパフォーマンスに影響を与えない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。