Skip to main content
QUICK REVIEW

[論文レビュー] Exploring the Space of Black-box Attacks on Deep Neural Networks

Arjun Nitin Bhagoji, Warren He|arXiv (Cornell University)|Dec 27, 2017
Adversarial Robustness in Machine Learning参考文献 24被引用数 70
ひとこと要約

論文は Gradient Estimation を用いた黒箱攻撃を紹介し、モデルのクエリ出力を利用して敵対的サンプルを作成し、MNISTと CIFAR-10 で白箱性能に近づけ、転移ベースの黒箱手法を上回り、効果的なクエリ削減戦略を示す。

ABSTRACT

Existing black-box attacks on deep neural networks (DNNs) so far have largely focused on transferability, where an adversarial instance generated for a locally trained model can "transfer" to attack other learning models. In this paper, we propose novel Gradient Estimation black-box attacks for adversaries with query access to the target model's class probabilities, which do not rely on transferability. We also propose strategies to decouple the number of queries required to generate each adversarial sample from the dimensionality of the input. An iterative variant of our attack achieves close to 100% adversarial success rates for both targeted and untargeted attacks on DNNs. We carry out extensive experiments for a thorough comparative evaluation of black-box attacks and show that the proposed Gradient Estimation attacks outperform all transferability based black-box attacks we tested on both MNIST and CIFAR-10 datasets, achieving adversarial success rates similar to well known, state-of-the-art white-box attacks. We also apply the Gradient Estimation attacks successfully against a real-world Content Moderation classifier hosted by Clarifai. Furthermore, we evaluate black-box attacks against state-of-the-art defenses. We show that the Gradient Estimation attacks are very effective even against these defenses.

研究の動機と目的

  • ブラックボックス攻撃者が転移性に依存せず、モデル出力へのクエリアクセスの脅威を動機づけて定量化する。
  • Gradient Estimation に基づく攻撃を開発し、有限差分を介して勾配を近似する。
  • 高い成功率を維持しつつ、敵対的サンプルを作成するために必要なクエリ数を削減する。
  • 最先端モデル、防御、実世界の API(Clarifai)を対象に攻撃を評価する。
  • ゼロクエリのベースラインと転移ベース黒箱攻撃との包括的な比較を提供する。

提案手法

  • ターゲットモデルの出力確率へアクセスできる状態で、有限差分を用いて勾配を近似する Gradient Estimation 攻撃を提案する。
  • 2 つのクエリ削減技法:ランダム特徴グルーピングと PCA ベースのクエリ削減を用いて次元を低減する。
  • 摂動の誘導を guiding するため、クロスエントロピー損失とロジットベースの損失の両方で実験する。
  • 高い成功率を達成するために、単一ステップおよび反復変種(IFD-xent、IFD-logit、IFD-xent-T、IFD-logit-T)を開発する。
  • MNIST と CIFAR-10 でゼロクエリベースライン、転移ベースの攻撃、白ボックスのベースラインと比較する。
  • 実世界の API(Clarifai NSFW/Content Moderation)と防御への適用性を実証する。

実験結果

リサーチクエスチョン

  • RQ1黒箱の敵がローカルなサロゲートモデルを学習せずに高い攻撃成功率を達成できるか。
  • RQ2クエリ出力から勾配情報をどれだけ効果的に推定して敵対的例を生成できるか。
  • RQ3高次元の勾配推定を画像に対して実用的にするクエリ削減戦略は有効か。
  • RQ4Gradient Estimation 攻撃は現代の防御および実世界の MLaaS サービスに対して頑健か。

主な発見

  • Gradient Estimation 攻撃は単一ステップおよび反復設定で MNIST および CIFAR-10 における白箱攻撃の性能に匹敵する。
  • Iterative Gradient Estimation 攻撃(IFD-*) はモデルとデータセット全体で 100% の敵対的成功を達成。
  • 単一ステップの logit 損失を用いた Gradient Estimation(FD-logit)は、白箱 FGSM with logit loss にしばしば匹敵し、クエリ数を大幅に削減(単一ステップでおおよそ 200–800 回、反復で約 8,000 回程度)。
  • クエリ削減法(ランダムグルーピング、PCA ベース)は、成功率の大幅な低下を招くことなくクエリ数を大幅に削減する。
  • 攻撃は標準的、アンサンブル、反復的な adversarial training 防御、および実世界の Clarifai NSFW/Content Moderation モデルに対しても高い有効性を維持し、画像あたり約 200 回のクエリで実証される。
  • 転移ベースの黒箱攻撃と比較して、Gradient Estimation アプローチは、類似の歪みで攻撃成功率を大きく上回す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。