Skip to main content
QUICK REVIEW

[論文レビュー] Reliable evaluation of adversarial robustness with an ensemble of diverse parameter-free attacks

Francesco Croce, Matthias Hein|arXiv (Cornell University)|Mar 3, 2020
Adversarial Robustness in Machine Learning参考文献 51被引用数 434
ひとこと要約

本論文は、ハイパーパラメータのチューニングを必要としない多様な攻撃のパラメータフリーなアンサンブルである AutoAttack を紹介し、50+ のモデルを超える弱い defenses を識別できることを示す。

ABSTRACT

The field of defense strategies against adversarial attacks has significantly grown over the last years, but progress is hampered as the evaluation of adversarial defenses is often insufficient and thus gives a wrong impression of robustness. Many promising defenses could be broken later on, making it difficult to identify the state-of-the-art. Frequent pitfalls in the evaluation are improper tuning of hyperparameters of the attacks, gradient obfuscation or masking. In this paper we first propose two extensions of the PGD-attack overcoming failures due to suboptimal step size and problems of the objective function. We then combine our novel attacks with two complementary existing ones to form a parameter-free, computationally affordable and user-independent ensemble of attacks to test adversarial robustness. We apply our ensemble to over 50 models from papers published at recent top machine learning and computer vision venues. In all except one of the cases we achieve lower robust test accuracy than reported in these papers, often by more than $10\%$, identifying several broken defenses.

研究の動機と目的

  • 対抗的 defenses の信頼性の低い評価を、ハイパーパラメータのチューニングと攻撃の弱点のために動機づけ、修正する。
  • 補完的な攻撃を組み合わせた頑健でパラメータフリーの評価プロトコルを提案する。
  • アンサンブルが多くの公開論文で報告されている防御よりも低いロバスト精度をもたらすことを示し、壊れた defenses を強調する。
  • MNIST、CIFAR-10/100、ImageNet のデータセットと脅威モデル(l_infty、l_2)に対するスケーラビリティと一般性を実証する。

提案手法

  • PSGD を Auto-PGD(APGD)へ拡張し、ステップサイズを選択する必要をなくすとともに、予算意識的なステップサイズ適応を行う。
  • 勾配マスキング効果を緩和するため、シフトおよび再スケーリング不変な損失関数の変種(DLR loss)を導入する。
  • APGD CE、APGD DLR を、白箱 FAB およびブラックボックス Square Attack と組み合わせて、パラメータフリーのアンサンブル AutoAttack を構成する。
  • モデルとデータセットを横断してパラメータフリー動作を保証するため、一定のイテレーション数とリスタート回数を使用する。
  • 攻撃の変種には APGD CE、APGD T DLR(ターゲット)、「FAB T」、および Square Attack を含み、各実行で 100 回のイテレーションを行う。
  • AutoAttack はその構成攻撃の中で最悪ケースのロバスト精度を選択してロバスト性を推定する。

実験結果

リサーチクエスチョン

  • RQ1パラメータフリーの攻撃アンサンブルは、多様なモデルとデータセット全体で対抗的ロバスト性を信頼性をもって推定できるか。
  • RQ2APGD の新しい変種と勾配不変な損失(DLR) は、標準の PGD に比べて攻撃の有効性とロバスト性推定を改善するか。
  • RQ3APGD CE、APGD DLR、FAB、Square Attack の組み合わせは、以前はロバストと報告された防御の弱点を明らかにするのに十分か。
  • RQ4AutoAttack は MNIST、CIFAR-10/100、ImageNet に対する l_infty および l_2 の脅威モデルでどのように機能するか。
  • RQ5アンサンブルは壊れた defenses を特定し、検討中の論文におけるロバスト性の過大評価を減らすか。

主な発見

  • AutoAttack は、多くの文献で報告された防御と比較してロバスト精度を低下させることが多く、場合によっては 10 ポイント以上低下させる。
  • APGD は CE、CW、DLR の損失に対して、標準の PGD(モーメント付き)を複数のモデルで上回る。
  • DLR 損失はクロスエントロピーより安定しており、CW 損失と同程度かそれ以上の結果を示すことが多く、失敗ケースが少ない。
  • APGD DLR および FAB のターゲット版は、通常、ターゲットなしの変種より CIFAR-10 / ImageNet のベンチマークでより強力な攻撃となり、ロバスト性を低下させる。
  • 50+ の分類器(35 の defenses から)に跨る場合でも、AutoAttack は限られた予算でハイパーパラメータ調整なしの信頼できるロバスト性推定を提供する。
  • AutoAttack はいくつかの壊れた defenses を特定し、新防御の実用的な最小テストを提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。