Skip to main content
QUICK REVIEW

[論文レビュー] RobustBench: a standardized adversarial robustness benchmark

Francesco Croce, Maksym Andriushchenko|arXiv (Cornell University)|Oct 19, 2020
Adversarial Robustness in Machine Learning参考文献 135被引用数 116
ひとこと要約

RobustBenchは、AutoAttack、リーダーボード、およびModel Zooを使用して、防御を比較し、分布や関連要因に跨るロバスト性を分析する、標準化された再現性のある敵対的ロバスト性評価を確立します。

ABSTRACT

As a research community, we are still lacking a systematic understanding of the progress on adversarial robustness which often makes it hard to identify the most promising ideas in training robust models. A key challenge in benchmarking robustness is that its evaluation is often error-prone leading to robustness overestimation. Our goal is to establish a standardized benchmark of adversarial robustness, which as accurately as possible reflects the robustness of the considered models within a reasonable computational budget. To this end, we start by considering the image classification task and introduce restrictions (possibly loosened in the future) on the allowed models. We evaluate adversarial robustness with AutoAttack, an ensemble of white- and black-box attacks, which was recently shown in a large-scale study to improve almost all robustness evaluations compared to the original publications. To prevent overadaptation of new defenses to AutoAttack, we welcome external evaluations based on adaptive attacks, especially where AutoAttack flags a potential overestimation of robustness. Our leaderboard, hosted at https://robustbench.github.io/, contains evaluations of 120+ models and aims at reflecting the current state of the art in image classification on a set of well-defined tasks in $\ell_\infty$- and $\ell_2$-threat models and on common corruptions, with possible extensions in the future. Additionally, we open-source the library https://github.com/RobustBench/robustbench that provides unified access to 80+ robust models to facilitate their downstream applications. Finally, based on the collected models, we analyze the impact of robustness on the performance on distribution shifts, calibration, out-of-distribution detection, fairness, privacy leakage, smoothness, and transferability.

研究の動機と目的

  • 共通の脅威モデル下での敵対的ロバスト性の標準化された、信頼性の高い評価プロトコルを定義する。
  • 力 Robust? ロバストな画像分類の進捗を追跡する最新の公開リーダーボードを提供する。
  • 公開用のモデル zoo をオープンソース化し、下流での利用と公正な比較を促進する。
  • ロバスト性が分布シフト、キャリブレーション、OOD検出、公平性、プライバシー漏洩などの性質とどのように相互作用するかを評価する。

提案手法

  • CIFAR-10、CIFAR-100、ImageNetにおけるl_infinityおよびl_2脅威モデルの現行標準評価としてAutoAttackを使用する。
  • 信頼性のある評価を保証するため、提出モデルに制限を課す(入力勾配がゼロでない、決定論的フォワードパス、フォワード時最適化ループなし)。
  • 潜在的なロバスト性過大評価を示す外部適応評価を提供し、さらなる検証を促す。
  • robustbench.github.io で120件以上のモデル評価を含む公開リーダーボードと80以上の堅牢なモデルを持つModel Zooを維持する。
  • モデルを評価する統一ライブラリをオープンソース化し、堅牢なモデルの下流での利用を容易にする。)

実験結果

リサーチクエスチョン

  • RQ1共通の脅威モデルに対する信頼性があり標準化された敵対的ロバスト性評価とは何か?
  • RQ2l_infinityおよびl_2摂動下のロバスト性は、キャリブレーション、分布シフト、OOD検出、プライバシー漏洩などの他の特性とどのように関連するか?
  • RQ3公開的に維持されるリーダーボードとモデル zoo は、敵対的ロバスト性研究の進展と公正な比較を加速できるか?

主な発見

  • サブ最適な攻撃で評価すると、以前に報告された多くの堅牢性正確性は過大評価されることが多い。標準化されたAutoAttackはより厳密な上限を提供する。
  • 堅牢なモデルは過小信頼傾向があり、キャリブレーションが必要(温度スケーリングはECEを大幅に改善するがギャップは残る)。
  • ロバストトレーニングはOOD検出品質とクラス間の公平性を低下させることがあるが、効果は手法と脅威モデルによって異なる。
  • 追加のトレーニングデータはロバストネスと精度のトレードオフを緩和するのに役立つが、ロバスト性はクリーン精度のいくつかの性能低下と関連している。
  • 敵対的サンプルは、堅牢-堅牢モデル間および堅牢-堅牢へ転移する傾向が高いが、堅牢から非堅牢モデルへの転移は低い。モデルの滑らかさはロバスト性と相関がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。