QUICK REVIEW

[論文レビュー] Simple Black-Box Adversarial Perturbations for Deep Networks

Nina Narodytska, Shiva Prasad Kasiviswanathan|arXiv (Cornell University)|Dec 19, 2016

Adversarial Robustness in Machine Learning参考文献 14被引用数 165

ひとこと要約

この論文は、深層CNNがブラックボックスの敵対的摂動に脆弱であることを示し、モデルパラメータにアクセスせずにごく少数のピクセルを摂動することで誤分類画像を構築する。ランダムピクセル攻撃と貪欲的な局所探索アプローチを導入し、ブラックボックスの脅威モデル下で敵対的例を生成する。

ABSTRACT

Deep neural networks are powerful and popular learning models that achieve state-of-the-art pattern recognition performance on many computer vision, speech, and language processing tasks. However, these networks have also been shown susceptible to carefully crafted adversarial perturbations which force misclassification of the inputs. Adversarial examples enable adversaries to subvert the expected system behavior leading to undesired consequences and could pose a security risk when these systems are deployed in the real world. In this work, we focus on deep convolutional neural networks and demonstrate that adversaries can easily craft adversarial examples even without any internal knowledge of the target network. Our attacks treat the network as an oracle (black-box) and only assume that the output of the network can be observed on the probed inputs. Our first attack is based on a simple idea of adding perturbation to a randomly selected single pixel or a small set of them. We then improve the effectiveness of this attack by carefully constructing a small set of pixels to perturb by using the idea of greedy local-search. Our proposed attacks also naturally extend to a stronger notion of misclassification. Our extensive experimental results illustrate that even these elementary attacks can reveal a deep neural network's vulnerabilities. The simplicity and effectiveness of our proposed schemes mean that they could serve as a litmus test for designing robust networks.

研究の動機と目的

最先端のCNNがoracle-only access（オラクルのみのアクセス）でブラックボックス攻撃に対してどの程度脆弱かを評価する。
単一のピクセルまたは小さなピクセル集合を摂動させることで誤分類を引き起こせることを示す。
必要摂動量を減らすための貪欲な局所探索ベースの攻撃を開発・評価する。
真のラベルがトップ-k の予測の外に位置する k-misclassification へ攻撃を拡張する。

提案手法

ネットワークをオラクルとして扱い、探査入力に対する出力を観察する。
符号保持摂動を用いて単一ピクセル（または小さな集合）を摂動させることを検討する。
摂動時に誤分類を引き起こす可能性のある臨界ピクセルと臨界集合を定義する。
RandAdvを提案する：臨界ピクセルの割合を推定するためのランダムピクセル摂動法。
貪欲な局所探索攻撃を開発し、少数のピクセルを摂動して真のラベルがトップ-kの予測にとどまる確率を最小化する。
高解像度画像へは、ピクセルの集合（例: 50 ピクセル）とより大きな摂動を摂動することでアプローチを拡張する。

実験結果

リサーチクエスチョン

RQ1ブラックボックスの敵対的攻撃者は、単一ピクセルまたは非常に小さなセットのピクセルを摂動するだけで誤分類を引き起こすことができるか？
RQ2摂動の大きさは臨界ピクセルの存在および検出可能性にどのような影響を与えるか？
RQ3ブラックボックスアクセス下で貪欲な局所探索戦略が限られた摂動で効果的な敵対的例を生成できるか？
RQ4ブラックボックス脅威モデルの下で k-misclassification を達成することは可能か？

主な発見

ランダムに選択された単一ピクセルの摂動は、多くのデータセットで誤分類を頻繁に引き起こすことがある。
摂動の大きさを増やすと臨界ピクセルの割合とRandAdvの成功率が高まる。
高解像度画像では、約50ピクセルの摂動で敵対的な例を効果的に生成できる。
貪欲な局所探索アプローチは、勾配情報に依存せずに小さな摂動で敵対的な画像を生み出す。
攻撃は k-misclassification を達成でき、真のラベルがトップ-k の予測から外れることを保証する。
ImageNet1000では、平均して約0.5% のピクセルのみを摂動する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。