Skip to main content
QUICK REVIEW

[논문 리뷰] Adversarial Risk and the Dangers of Evaluating Against Weak Attacks

Jonathan Uesato, Brendan O’Donoghue|arXiv (Cornell University)|2018. 02. 15.
Adversarial Robustness in Machine Learning참고 문헌 40인용 수 304
한 줄 요약

본 논문은 보고된 적대적 강건성이 종종 대리 공격에 의존한다는 점을 주장하고, 적대적 위험(adversarial risk)을 정식화하며, 불투명성(obscurity)을 도입하고, 많은 방어가 더 강력한 공격에 취약하다는 것을 보여준다.

ABSTRACT

This paper investigates recently proposed approaches for defending against adversarial examples and evaluating adversarial robustness. We motivate 'adversarial risk' as an objective for achieving models robust to worst-case inputs. We then frame commonly used attacks and evaluation metrics as defining a tractable surrogate objective to the true adversarial risk. This suggests that models may optimize this surrogate rather than the true adversarial risk. We formalize this notion as 'obscurity to an adversary,' and develop tools and heuristics for identifying obscured models and designing transparent models. We demonstrate that this is a significant problem in practice by repurposing gradient-free optimization techniques into adversarial attacks, which we use to decrease the accuracy of several recently proposed defenses to near zero. Our hope is that our formulations and results will help researchers to develop more powerful defenses.

연구 동기 및 목표

  • 적대적 위험을 최악의 경우 성능 측정으로 동기화한다.
  • 일반적인 평가 지표가 실제 적대적 위험의 대리 척도임을 보여준다.
  • 약한 공격에 의존하는 방어를 진단하는 방법으로 불투명성을 도입한다.
  • 실험을 통해 많은 방어가 더 강력한 공격 아래에서 실패한다는 것을 입증한다.

제안 방법

  • 입력에 대한 최악의 경우 위험으로서의 적대적 위험을 형식화한다.
  • 선택된 공격자 f를 이용해 이웃 Nε(x)와 대리 위험 Ĺ를 정의하여 로컬 적대적 위험 L을 정의한다.
  • 불투명도(θ, f) = L(θ) − Ĺ(θ, f)로 정의하고 투명성에 대해 논의한다.
  • 강건성 평가를 위해 그래디언트 기반(PGD) 및 그래디언트 비의존적(SPSA) 공격 전략을 기술한다.
  • 전이 공격 및 비미분 방어에 대한 불투명성 효과를 분석한다.
  • 더 강력한 공격자에 대해 방어를 평가하여 진정한 강건성을 드러내 비교한다.

실험 결과

연구 질문

  • RQ1대리적 적대적 평가 지표가 진짜 적대적 위험을 얼마나 잘 반영하는가?
  • RQ2방어가 진정한 강건성보다는 불투명성에 얼마나 의존하는가?
  • RQ3더 강력하거나 그래디언트 비의존적 공격이 표준 평가를 통과한 방어의 약점을 드러낼 수 있는가?
  • RQ4비미분 가능 변환, 생성 모델 기반 방어, 적대적 학습은 더 강력한 공격 하에서 어떻게 작동하는가?

주요 결과

  • 표준 공격에 대해 강력한 성능을 보이는 많은 방어도 더 강력하거나 그래디언트 비의존적 공격에 취약한 것으로 남아 있다.
  • 불투명성은 중요한 요인이다; 더 높은 대리 성능이 반드시 낮은 진정한 적대적 위험을 보장하지는 않는다.
  • 그래디언트 기반 공격은 비미분 가능 방어에서 실패할 수 있지만 그래디언트 비의존적 방법은 적대적 예제를 발견할 수 있다.
  • PixelDefend, 자동 인코더 정제, 확률적 방어는 더 강한 공격자에 의해 무너질 수 있다.
  • 적대적 학습은 불투명성을 줄이고 진정한 강건성을 향상시키는 경향이 있으며, 불투명성에 취약한 여러 방어와는 다르다.
  • 더 강력한 공격은 여러 방어의 정확도를 거의 0에 가깝게 낮출 수 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.