[論文レビュー] Practical Black-Box Attacks against Machine Learning
ブラックボックス攻撃を実演し、リモートDNNがラベル付けした合成入力を用いて代替モデルを訓練し、転移する敵対的例を作成して高い誤分類率を達成する。モデル内部や訓練データにアクセスせずに。
Machine learning (ML) models, e.g., deep neural networks (DNNs), are vulnerable to adversarial examples: malicious inputs modified to yield erroneous model outputs, while appearing unmodified to human observers. Potential attacks include having malicious content like malware identified as legitimate or controlling vehicle behavior. Yet, all existing adversarial example attacks require knowledge of either the model internals or its training data. We introduce the first practical demonstration of an attacker controlling a remotely hosted DNN with no such knowledge. Indeed, the only capability of our black-box adversary is to observe labels given by the DNN to chosen inputs. Our attack strategy consists in training a local model to substitute for the target DNN, using inputs synthetically generated by an adversary and labeled by the target DNN. We use the local substitute to craft adversarial examples, and find that they are misclassified by the targeted DNN. To perform a real-world and properly-blinded evaluation, we attack a DNN hosted by MetaMind, an online deep learning API. We find that their DNN misclassifies 84.24% of the adversarial examples crafted with our substitute. We demonstrate the general applicability of our strategy to many ML techniques by conducting the same attack against models hosted by Amazon and Google, using logistic regression substitutes. They yield adversarial examples misclassified by Amazon and Google at rates of 96.19% and 88.94%. We also find that this black-box attack strategy is capable of evading defense strategies previously found to make adversarial example crafting harder.
研究の動機と目的
- 入力-出力ラベルのみがアクセス可能なML分類器に対する実践的なブラックボックス脅威モデルを動機づけ、正式化する。
- ターゲットによってラベル付けされた合成データで訓練した代替モデルが転移可能な敵対的例を生成できることを示す。
- 転移性と防御回避を評価するため、実際のリモートDNNサービスとローカルGTSRB分類器で攻撃を評価する。
提案手法
- 合成入力を用いてリモートオラクルを照会し、オラクルの出力でラベル付けすることで代替DNNを訓練する(訓練データへのアクセスなし)。
- Jacobian-based dataset augmentationを用いて入力空間を効率的に探索し、オラクル照会を削減しつつ代替の決定境界を形作る。
- 確立された手法(Goodfellow’s fast gradient sign method and Papernot’s saliency-based approach)を用いて代替上に敵対的サンプルを作成し、ターゲットモデルの誤分類を誘導する。
- 同様の決定境界のため、代替からターゲットへの敵対的サンプルの転移性を示す。
- 複数のリモート分類器(MetaMind MNIST, Amazon/GG)とローカル GTSRB モデルを対象に検証し、広範な適用性を示す。
実験結果
リサーチクエスチョン
- RQ1クエリのラベル出力のみを用いてブラックボックスの攻撃者がターゲットDNNの誤分類を引き起こせるか。
- RQ2ターゲットによってラベル付けされた合成データで訓練された代替モデルが、ターゲットを誤らせる転移可能な敵対的例を生成できるか。
- RQ3攻撃は異なるアーキテクチャやリモートMLサービス(MetaMind, Amazon, Google)およびデータセット(MNIST, GTSRB)でどれほど効果的か。
主な発見
- 代替モデル上で作成された敵対的サンプルがターゲットを誤分類させる:MetaMind MNIST実験で転移率は84.24%。
- 特定の条件下で、AmazonおよびGoogleがホストするモデルをそれぞれ96.19%と88.94%で誤分類させた。
- GTSRBをターゲットとした攻撃は、変動をほとんど知覚不能な程度に抑えつつ、64.24%から69.03%の転移率を達成。
- Jacobian-based augmentationによる代替訓練は、オラクル照会が比較的少数で済む一方で効果的な決定境界の近似を生み出す。
- 攻撃は敵対的サンプル作成を強化するよう設計された防御を回避できることを示しており、ブラックボックスの代替に対して防御機構は不十分かもしれない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。