QUICK REVIEW

[論文レビュー] Blacklight: Defending Black-Box Adversarial Attacks on Deep Neural Networks.

Huiying Li, Shawn Shan|arXiv (Cornell University)|Jun 24, 2020

Adversarial Robustness in Machine Learning参考文献 56被引用数 24

ひとこと要約

Blacklightは、各入力画像に対して堅牢で一方向性ハッシュ値のフィンガープrintを生成することで、悪意あるクエリを検出する画期的な防御手法であり、小さな画像の摂動に対してもほぼ同一のフィンガープrintを維持する。これにより、攻撃クエリの早期検出が可能となり、しばしばたった数クエリで検出が可能になる。また、強力でクエリ効率の高い攻撃や高度な対策に対しても効果的である。

ABSTRACT

The vulnerability of deep neural networks (DNNs) to adversarial examples is well documented. Under the strong white-box threat model, where attackers have full access to DNN internals, recent work has produced continual advancements in defenses, often followed by more powerful attacks that break them. Meanwhile, research on the more realistic black-box threat model has focused almost entirely on reducing the query-cost of attacks, making them increasingly practical for ML models already deployed today. This paper proposes and evaluates Blacklight, a new defense against black-box adversarial attacks. Blacklight targets a key property of black-box attacks: to compute adversarial examples, they produce sequences of highly similar images while trying to minimize the distance from some initial benign input. To detect an attack, Blacklight computes for each query image a compact set of one-way hash values that form a probabilistic fingerprint. Variants of an image produce nearly identical fingerprints, and fingerprint generation is robust against manipulation. We evaluate Blacklight on 5 state-of-the-art black-box attacks, across a variety of models and classification tasks. While the most efficient attacks take thousands or tens of thousands of queries to complete, Blacklight identifies them all, often after only a handful of queries. Blacklight is also robust against several powerful countermeasures, including an optimal black-box attack that approximates white-box attacks in efficiency. Finally, Blacklight significantly outperforms the only known alternative in both detection coverage of attack queries and resistance against persistent attackers.

研究の動機と目的

クエリ効率を活用して検出を回避する実用的なブラックボックス攻撃の増加する脅威に対処すること。
重大なモデル露出が発生する前に対象となる攻撃クエリを早期に検出すること。
白ボックス効率に近い最適なブラックボックス攻撃に対しても効果を発揮する防御を設計すること。
継続的な攻撃者に対して優れた検出カバレッジと耐性を示す既存の防御を上回ること。
実世界での機械学習モデルの展開に適合する軽量でスケーラブルなソリューションを提供すること。

提案手法

Blacklightは、各入力画像に対して一方向性ハッシュ値のコンパクトな集合を生成し、小さな悪意ある摂動に対して不変な確率的フィンガープリントを形成する。
フィンガープリント生成機構は、画像の操作に対して堅牢であるように設計されており、同じ画像の変種（例：悪意ある摂動）がほぼ同一のフィンガープリントを生成することを保証する。
クエリのシーケンスが互いにあまりに類似している場合に検出がトリガーされ、攻撃の存在が示唆される。
この手法は、ブラックボックス攻撃が、良性入力からの距離を最小限に抑えるために類似した画像のシーケンスを生成すると仮定している。
モデルの内部構造や内部勾配へのアクセスを必要としないため、ブラックボックス展開に適している。
この防御は、下位のモデルアーキテクチャーや分類タスクに依存しないため、広範な適用性を有する。

実験結果

リサーチクエスチョン

RQ1軽量でクエリに依存しない防御は、最小限のクエリ露出でもブラックボックス攻撃を早期に検出可能か？
RQ2白ボックス効率を模倣する低クエリブラックボックス攻撃に対してBlacklightはどの程度効果的か？
RQ3攻撃者が検出を回避するために適応する継続的攻撃シナリオにおいて、Blacklightは高い検出精度を維持できるか？
RQ4高度な対策に対抗する能力や検出カバレッジの観点から、Blacklightは既存の防御と比較してどうか？
RQ5さまざまな画像変換や悪意ある摂動に対しても、フィンガープリント生成機構は堅牢性を保っているか？

主な発見

Blacklightは評価された5つの最先端ブラックボックス攻撃すべてを検出でき、しばしば2〜5クエリ目で攻撃を特定する。
攻撃がクエリコストを最小限に抑え、白ボックス行動を模倣するように最適化されても、Blacklightは高い検出精度を維持する。
継続的な攻撃者に対して、検出カバレッジと耐性の両面で、唯一の既知の代替防御を著しく上回る。
白ボックスに近いクエリ効率を達成する最適なブラックボックス攻撃に対しても、この手法は効果を発揮する。
画像操作に対してフィンガープリント生成が堅牢であるため、悪意ある摂動に対しても一貫した検出が可能である。
Blacklightはモデルの内部構造を必要としないため、実世界の生産環境システムへの展開が可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。