QUICK REVIEW

[論文レビュー] Accurate, reliable and fast robustness evaluation

Wieland Brendel, Jonas Rauber|arXiv (Cornell University)|Jul 1, 2019

Adversarial Robustness in Machine Learning参考文献 25被引用数 31

ひとこと要約

本論文は、$L_0$、$L_1$、$L_2$、$L_\infty$ ノルムの全範囲において、攻撃成功率、クエリ効率、ハイパーパrameterチューニングへのロバスト性の面で最先端の手法を上回る、勾配に基づく敵対的攻撃の新クラスを導入する。遠く離れた敵対的サンプルから敵対境界に沿って移動することで、信頼できる勾配情報が維持され、最小限のハイパーパrameterチューニングで十分にロバスト性の評価の信頼性が向上する。

ABSTRACT

Throughout the past five years, the susceptibility of neural networks to minimal adversarial perturbations has moved from a peculiar phenomenon to a core issue in Deep Learning. Despite much attention, however, progress towards more robust models is significantly impaired by the difficulty of evaluating the robustness of neural network models. Today's methods are either fast but brittle (gradient-based attacks), or they are fairly reliable but slow (score- and decision-based attacks). We here develop a new set of gradient-based adversarial attacks which (a) are more reliable in the face of gradient-masking than other gradient-based attacks, (b) perform better and are more query efficient than current state-of-the-art gradient-based attacks, (c) can be flexibly adapted to a wide range of adversarial criteria and (d) require virtually no hyperparameter tuning. These findings are carefully validated across a diverse set of six different models and hold for L0, L1, L2 and Linf in both targeted as well as untargeted scenarios. Implementations will soon be available in all major toolboxes (Foolbox, CleverHans and ART). We hope that this class of attacks will make robustness evaluations easier and more reliable, thus contributing to more signal in the search for more robust machine learning models.

研究の動機と目的

深層ニューラルネットワークにおける信頼性の低い効率的でない耐性評価の重大な課題に対処すること。
勾配マスキングやハイパーパrameterに敏感であるといった、既存の勾配ベースの攻撃の限界を克服すること。
高い攻撃成功率を維持しながら、クエリ効率が高く、微調整に依存しない方法を開発すること。
多様なモデルやノルムにおいて、信頼性があり、高速で柔軟な敵対的耐性評価ツールを提供すること。
文献における有効な防御と無効な防御のより正確な区別を可能にすること。

提案手法

攻撃は遠く離れた敵対的サンプルから開始され、クリーンな入力に向かって敵対境界に沿って移動することで、信頼できる勾配情報が維持される領域に留まる。
各ステップで、与えられた $L_p$ ノルムとピクセルの制限下で最適な降下方向を特定するための二次計画問題を解き、境界の局所的平面近似を用いる。
攻撃はサロゲート損失関数に依存せず、敵対的領域と非敵対的領域の境界を勾配推定によって近似する。
1つのトラスト領域ハイパーパrameterを導入することで、C&Wで一般的なトレードオフパラメータやPGDの固定ノルムボールに依存する必要がなくなる。
境界が微分可能な等式制約で記述できる限り、さまざまな敵対的基準に適応可能である。
クエリ効率が高く、最適でないハイパーパラメータ設定に対してもロバストであるように設計されており、最小限のチューニングで済む。

実験結果

リサーチクエスチョン

RQ1ハイパーパラメータの広範なチューニングを要せず、複数の $L_p$ ノルムにおいてPGD や C&W を上回る高い攻撃成功率を達成できる勾配ベースの攻撃は可能か？
RQ2敵対的訓練を施したモデル、特に攻撃が難しいとされるモデルにおいて、提案手法はどのように性能を発揮するか？
RQ3C&W や PGD と比較して、最適でないハイパーパラメータ設定に対して、どの程度のロバスト性を示すか？
RQ4近接した初期点からではなく、敵対境界に沿って動作させた場合でも、高いクエリ効率を維持できるか？
RQ5多様なモデルやデータセットにおいて、ターゲット付きとターゲットなしの両方の攻撃シナリオに適用可能かどうか、柔軟性があるか？

主な発見

提案された攻撃は、ターゲット付きおよびターゲットなしの両設定において、$L_0$、$L_1$、$L_2$、$L_\infty$ のすべての $L_p$ ノルムで、PGD や C&W を上回る攻撃成功率を達成する。
約10クエリ後には、PGD や AdamPGD よりも高い成功率を達成するが、初期段階ではPGDが境界をより速く発見できるためわずかな初期優位性を示す。
攻撃はハイパーパラメータチューニングに対して極めてロバストである：トラスト領域を2桁変更しても性能低下は15％未満であり、C&Wとは対照的に、単一の桁変更で約50％の低下を示す。
1回の繰り返しと1つのハイパーパラメータのみで、C&W や PGD を上回る性能を維持する。
特にMadry-MNISTのような敵対的訓練を施したモデルにおいても、優れた耐性評価能力を示し、特に効果的である。
ハイパーパラメータチューニングがほとんど不要であり、テストしたすべてのモデルで1つのトラスト領域値が良好に機能する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。