QUICK REVIEW

[論文レビュー] A Survey of Black-Box Adversarial Attacks on Computer Vision Models

Siddhant Bhambri, Sumanyu Muku|arXiv (Cornell University)|Dec 3, 2019

Adversarial Robustness in Machine Learning参考文献 81被引用数 23

ひとこと要約

本調査は、コンピュータビジョン分野におけるブラックボックス敵対的攻撃と防御技術について、包括的かつ比較的な分析を提供しており、攻撃手法をクエリ効率、摂動タイプ、脅威モデルごとに分類している。クエリ効率の高い攻撃、例えばZOOやBandit法は、最小限のクエリで高い成功率を達成しているのに対し、ピクセルのデフレクションやランダマイゼーションといった防御策はImageNetにおいて強力な一般化性と耐性を示しているが、大多数の防御策は適応的攻撃に対しては依然として脆弱であることが明らかになった。

ABSTRACT

Machine learning has seen tremendous advances in the past few years, which has lead to deep learning models being deployed in varied applications of day-to-day life. Attacks on such models using perturbations, particularly in real-life scenarios, pose a severe challenge to their applicability, pushing research into the direction which aims to enhance the robustness of these models. After the introduction of these perturbations by Szegedy et al. [1], significant amount of research has focused on the reliability of such models, primarily in two aspects - white-box, where the adversary has access to the targeted model and related parameters; and the black-box, which resembles a real-life scenario with the adversary having almost no knowledge of the model to be attacked. To provide a comprehensive security cover, it is essential to identify, study, and build defenses against such attacks. Hence, in this paper, we propose to present a comprehensive comparative study of various black-box adversarial attacks and defense techniques.

研究の動機と目的

コンピュータビジョン分野におけるブラックボックス敵対的攻撃の体系的分類体系を提供し、ホワイトボックス攻撃と区別すること。
クエリ効率、摂動タイプ、脅威モデルの制約に基づいて、さまざまなブラックボックス攻撃戦略の有効性を分析・比較すること。
MNIST、CIFAR-10、ImageNetなどのデータセットにおける、敵対的攻撃に対する既存の防御メカニズムの耐性、正確性の保持、一般化能力を評価すること。
防御の評価におけるギャップを浮き彫りにすること。具体的には、大多数の防御技術が白箱攻撃に対してのみテストされているが、現実のブラックボックス環境では評価が不十分である点を指摘すること。
今後の研究方向性を特定すること。具体的には、非耐性特徴の検出と、敵対的誤分類を狙った標的的利用の可能性を含む。

提案手法

クエリベース、勾配推定、トランスファーに基づく手法に分類し、クエリ効率と摂動制約に重点を置く。
脅威モデルの構成要素に基づいて攻撃を分類：攻撃者の目的（例：標的攻撃、完全性の損なわれた攻撃）と能力（例：クエリ制限、モデルへのアクセス権）。
攻撃成功率、防御有無での分類精度、および異なる摂動ノルム（L2、L∞）における耐性といった指標を用いて防御手法を評価する。
MNIST、CIFAR-10、ImageNetのデータセット上で、敵対的訓練、蒸留、MagNet、ピクセルのデフレクション、ランダマイゼーションといった防御法を比較する。
標準化されたベンチマークを採用：FGSM、PGD、C&W、DeepFool、JSMA攻撃を固定されたハイパーパrameter（例：L∞のε=8、L2のε=0.03）で実行し、公平な比較を実現する。
攻撃成功率と精度低下を用いて性能を分析し、引用された研究（例：Xu、Guo、Prakash、Xieなど）の公表済み結果に基づくデータを用いる。

実験結果

リサーチクエスチョン

RQ1標準的なデータセット上で、異なるブラックボックス攻撃戦略は、クエリ効率と攻撃成功率の観点でどのように比較できるか？
RQ2敵対的訓練、蒸留、ピクセルのデフレクションといった防御メカニズムは、多様なブラックボックス攻撃タイプに対して相対的にどの程度耐性を示すか？
RQ3白箱攻撃に対しては強力な性能を示すにもかかわらず、なぜ大多数の既存防御が、現実のブラックボックス脅威モデル下で失敗するのか？
RQ4防御技術は、敵対的摂動に対する耐性を高める一方で、モデルの正確性をどの程度維持できるか？
RQ5非耐性特徴を体系的に特定し、より効率的またはより静か（ステルス性が高い）なブラックボックス攻撃を設計するために利用できるか？

主な発見

Prakashらによるピクセルのデフレクションは、防御なしで100％の分類精度を達成し、CIFAR-10では9.7％の攻撃成功率を示した。これは、高い一般化性と耐性を示している。
ImageNetでは、すべての防御策における平均攻撃成功率が、MNIST や CIFAR-10 より顕著に高く、大規模データセットにおけるより高い脆弱性を示している。
MagNet や Xu の中央値スムージングは、CIFAR-10 で FGSM および I-FGSM 攻撃に対して、攻撃成功率を 0％にまで低下させたが、特定の摂動ノルム下でのみ有効であった。
Xie ら（2018）の防御策は、防御なしで98.9％の精度、FGSM 攻撃で18.5％の攻撃成功率を達成し、正確性と耐性のバランスが優れていた。
大多数の防御策は、適応的ブラックボックス攻撃に対して性能が低下しており、現実世界への適用可能性に重大なギャップがあることが示された。
本研究では、現在の防御策が主に白箱攻撃に対して評価されていることが判明しており、今後の研究では、より厳密なブラックボックス評価の必要性が示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。