QUICK REVIEW

[論文レビュー] Provably Minimally-Distorted Adversarial Examples

Nicholas Carlini, Guy Katz|arXiv (Cornell University)|Sep 29, 2017

Adversarial Robustness in Machine Learning参考文献 20被引用数 100

ひとこと要約

この論文は形式検証（Reluplex）を用いて、証明可能な最小の歪みを持つ敵対的例を構築し、攻撃と防御を評価する。CW 攻撃はほぼ最適であり、敵対的訓練は MNIST の小型ネットワークにおいて頑健性を大幅に高めることを示している。

ABSTRACT

The ability to deploy neural networks in real-world, safety-critical systems is severely limited by the presence of adversarial examples: slightly perturbed inputs that are misclassified by the network. In recent years, several techniques have been proposed for increasing robustness to adversarial examples --- and yet most of these have been quickly shown to be vulnerable to future attacks. For example, over half of the defenses proposed by papers accepted at ICLR 2018 have already been broken. We propose to address this difficulty through formal verification techniques. We show how to construct provably minimally distorted adversarial examples: given an arbitrary neural network and input sample, we can construct adversarial examples which we prove are of minimal distortion. Using this approach, we demonstrate that one of the recent ICLR defense proposals, adversarial retraining, provably succeeds at increasing the distortion required to construct adversarial examples by a factor of 4.2.

研究の動機と目的

防御の評価を経験的結果だけに頼らず、形式検証を用いて頑健性を評価する動機づけ。
選択した指標下で証明可能に最小の歪みを持つ敵対的例を生成する方法を開発。
最小歪みのベンチマークに対して現代的な攻撃（Carlini & Wagner）の有効性を評価。
小規模ネットワークで verifiable guarantees を用いて Madry らの敵対的訓練の頑健性への影響を評価。

提案手法

Reluplex は ReLU を持つネットワークに対して健全で完全集合なソルバーとして、距離 delta 内の敵対的入力の不存在を検証する。
絶対値を ReLU で表現することで L1 距離を Reluplex にエンコードする。
デルタを二分探索して証明可能に最小歪みの敵対的例を見つける。
攻撃者生成の例（CW、BIM/FGM）を証明可能な最小のものと比較して近似最適性を評価。
小規模 MNIST ネットワーク上で頑健性の向上を検証して adversarial training を評価。
小規模ネットワークでの制限と、改良された検証ツールによるスケーラビリティの可能性について議論。

実験結果

リサーチクエスチョン

RQ1反復攻撃（例：CW）は、証明可能に最小歪みの敵対的例にどれだけ近いのか？
RQ2敵対的訓練（Madry ら）は、小規模ネットワーク上の敵対的例に対する頑健性を証明可能に高めるのか？
RQ3Reluplex ベースの検証を L1 距離および L∞ 以外の歪み測定に拡張できるのか？
RQ4証明可能な保証は、コンパクトなモデルに対する現在および将来の攻撃/防御の有効性についてどんな洞察を提供するのか？

主な発見

点の数	CW の歪み	最小歪みの敵対的例	改善割合
N, L_infinity	35/35	0.042	0.039	12.319
N_bar, L_infinity	35/35	0.180	0.165	11.153

CW 攻撃は、小規模 MNIST モデルに対する L∞ での最小歪みの例の 11.6% の範囲に敵対的例を生み出す。
CW 攻撃は、小規模 MNIST モデルに対する L1 での最小歪みの例の 6.2% の範囲に敵対的例を生み出す（終了回数の制限による）。
敵対的訓練は、検証対象の小さいネットワークで最小歪みの敵対的例との距離を平均 4.23 倍増やす（L∞ で 0.039 から 0.165 へ）。
証明可能な最小歪みの敵対的例は様々なターゲットで見つけることができ、小規模ネットワーク上で保証された保証の下で防御を評価することを可能にする。
Reluplex の終了率は、L∞ での 81/90 と L1 での 64/90 のいずれも、報告された実験で敵対的訓練を受けたネットワークで高い。
本研究は、反復的攻撃が near-optimal であることを示すが、勾配降下の局所 minima のため真の最小値を見逃すことが多い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。