Skip to main content
QUICK REVIEW

[논문 리뷰] RobustBench: a standardized adversarial robustness benchmark

Francesco Croce, Maksym Andriushchenko|arXiv (Cornell University)|2020. 10. 19.
Adversarial Robustness in Machine Learning참고 문헌 135인용 수 116
한 줄 요약

RobustBench는 AutoAttack를 사용한 표준화되고 재현 가능한 적대적 강인성 평가를 확립하고, 리더보드와 모델 Zoo를 통해 방어를 비교하고 분포 및 관련 요인에 걸친 강인성을 분석합니다.

ABSTRACT

As a research community, we are still lacking a systematic understanding of the progress on adversarial robustness which often makes it hard to identify the most promising ideas in training robust models. A key challenge in benchmarking robustness is that its evaluation is often error-prone leading to robustness overestimation. Our goal is to establish a standardized benchmark of adversarial robustness, which as accurately as possible reflects the robustness of the considered models within a reasonable computational budget. To this end, we start by considering the image classification task and introduce restrictions (possibly loosened in the future) on the allowed models. We evaluate adversarial robustness with AutoAttack, an ensemble of white- and black-box attacks, which was recently shown in a large-scale study to improve almost all robustness evaluations compared to the original publications. To prevent overadaptation of new defenses to AutoAttack, we welcome external evaluations based on adaptive attacks, especially where AutoAttack flags a potential overestimation of robustness. Our leaderboard, hosted at https://robustbench.github.io/, contains evaluations of 120+ models and aims at reflecting the current state of the art in image classification on a set of well-defined tasks in $\ell_\infty$- and $\ell_2$-threat models and on common corruptions, with possible extensions in the future. Additionally, we open-source the library https://github.com/RobustBench/robustbench that provides unified access to 80+ robust models to facilitate their downstream applications. Finally, based on the collected models, we analyze the impact of robustness on the performance on distribution shifts, calibration, out-of-distribution detection, fairness, privacy leakage, smoothness, and transferability.

연구 동기 및 목표

  • 일반적인 위협 모델 하에서 적대적 강인성에 대한 표준화되고 신뢰할 수 있는 평가 프로토콜을 정의합니다.
  • 견고한 이미지 분류의 진행 상황을 추적하기 위한 최신의 공개 리더보드를 제공합니다.
  • 다운스트림 사용과 공정한 비교를 촉진하기 위해 강인한 모델의 Model Zoo를 오픈소스로 제공합니다.
  • 강인성이 분포 이동, 보정, OOD 탐지, 공정성 및 프라이버시 누출과 어떻게 상호작용하는지 평가합니다.

제안 방법

  • CIFAR-10, CIFAR-100, ImageNet에서 l_infinity 및 l_2 위협 모델에 대한 현재 표준 평가로 AutoAttack를 사용합니다.
  • 신뢰할 수 있는 평가를 보장하기 위해 제출된 모델에 제한을 둡니다 (비제로 입력 그래디언트, 결정론적 순전파, 순전파 시간 최적화 루프 금지).
  • 잠재적 강인성 과대평가를 지적하고 추가 테스트를 유도하기 위한 외부 적응 평가를 제공합니다.
  • 120개 이상의 모델 평가를 가진 공개 리더보드(robustbench.github.io)와 80개 이상의 강인 모델이 있는 Model Zoo를 유지합니다.
  • 모델을 벤치마킹하고 강인 모델의 다운스트림 사용을 쉽게 할 수 있는 통합 라이브러리를 오픈소스로 제공합니다.

실험 결과

연구 질문

  • RQ1일반적인 위협 모델 전반에 걸친 신뢰할 수 있고 표준화된 적대적 강인성 평가란 무엇인가?
  • RQ2l_infinity 및 l_2 교란 하에서의 강인성이 보정, 분포 이동 및 OOD 탐지, 프라이버시 누출 등의 다른 특성과 어떻게 관련되는가?
  • RQ3공개적으로 관리되는 리더보드와 모델 Zoo가 적대적 강인성 연구의 진행 및 공정한 비교를 가속화할 수 있는가?

주요 결과

  • 비최적 공격으로 평가될 때 이전에 보고된 많은 강인 정확도는 과대평가되며, 표준화된 AutoAttack가 더 엄격한 상한을 제공합니다.
  • 강인한 모델은 자신감이 낮은 경향이 있으며 보정이 필요합니다(온도 스케일링이 ECE를 크게 개선하지만 여전히 격차가 남습니다).
  • 강인한 학습은 클래스 간 OOD 탐지 품질과 공정성을 저하시킬 수 있으며, 효과는 방법과 위협 모델에 따라 다릅니다.
  • 추가 학습 데이터는 강인성-정확도 트레이드를 완화하는 데 도움이 되지만, 강인성은 여전히 깨끗한 정확도에서 일부 성능 저하와 관련이 있습니다.
  • 적대적 예제는 주로 강인-강인 모델 간 또는 강인에서 강인으로 전이되며, 비강인 모델로의 전이는 덜 일어나며, 모델의 매끄러움이 강인성과 상관관계가 있습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.