Skip to main content
QUICK REVIEW

[논문 리뷰] Perceptual Adversarial Robustness: Defense Against Unseen Threat Models

Cassidy Laidlaw, Sahil Singla|arXiv (Cornell University)|2020. 06. 22.
Adversarial Robustness in Machine Learning참고 문헌 46인용 수 19
한 줄 요약

이 논문은 인간의 시각 인지에 기반한 신경망 기반의 시각적 거리(LPIPS)를 인간 인지의 대체 측정치로 사용하여, 모든 인지 불가능한 적대적 공격에 강건한 모델을 훈련시키는 Perceptual Adversarial Training(PAT)을 제안한다. PAT는 CIFAR-10 및 ImageNet-100에서 L₂, L∞, 공간적 변형, 색상 재조정, JPEG 압축 등 다섯 가지 서로 다른 공격 타입에 대해 훈련 중에 어떤 공격 유형도 사용하지 않고도 최신 기술 수준의 강건성을 달성하며, 정확도를 두 배 이상 높였다. 이는 예상치 못한 위협 모델에 대해 매우 우수한 일반화 성능을 보여준다.

ABSTRACT

A key challenge in adversarial robustness is the lack of a precise mathematical characterization of human perception, used in the very definition of adversarial attacks that are imperceptible to human eyes. Most current attacks and defenses try to avoid this issue by considering restrictive adversarial threat models such as those bounded by $L_2$ or $L_\infty$ distance, spatial perturbations, etc. However, models that are robust against any of these restrictive threat models are still fragile against other threat models. To resolve this issue, we propose adversarial training against the set of all imperceptible adversarial examples, approximated using deep neural networks. We call this threat model the neural perceptual threat model (NPTM); it includes adversarial examples with a bounded neural perceptual distance (a neural network-based approximation of the true perceptual distance) to natural images. Through an extensive perceptual study, we show that the neural perceptual distance correlates well with human judgements of perceptibility of adversarial examples, validating our threat model. Under the NPTM, we develop novel perceptual adversarial attacks and defenses. Because the NPTM is very broad, we find that Perceptual Adversarial Training (PAT) against a perceptual attack gives robustness against many other types of adversarial attacks. We test PAT on CIFAR-10 and ImageNet-100 against five diverse adversarial attacks. We find that PAT achieves state-of-the-art robustness against the union of these five attacks, more than doubling the accuracy over the next best model, without training against any of them. That is, PAT generalizes well to unforeseen perturbation types. This is vital in sensitive applications where a particular threat model cannot be assumed, and to the best of our knowledge, PAT is the first adversarial training defense with this property.

연구 동기 및 목표

  • 적대적 강건성 연구에서 인간 인지의 정확한 수학적 특성화가 부족한 문제를 해결한다.
  • L₂, L∞ 등 제한적인 위협 모델이 새로운 공격 유형으로 일반화되지 못하는 문제를 해결한다.
  • 시각적 위협 모델을 모델링하여 다양한 예측 불가능한 변형 유형에 대해 강건성을 일반화하는 방어 기법을 개발한다.
  • 신경망 기반의 시각적 거리(LPIPS)가 인간 인지와 잘 관련되어 있음을 검증하여 스케일러블한 적대적 훈련을 가능하게 한다.
  • 넓은 시각적 위협 모델에 대해 훈련하는 것이 타겟 공격 및 비타겟 공격 모두에 대해 강력한 일반화 성능을 제공함을 보여준다. 이는 일반적인 손상(예: 흐림, 노이즈, 날씨 변화 등)에도 적용 가능하다.

제안 방법

  • 모든 인간에게 인지 불가능한 변형을 포함하는 시각적 적대적 위협 모델을 정의하며, 진정한 시각적 거리 d*를 사용해 수학적으로 기술한다.
  • 실제로 계산이 불가능한 진정한 시각적 거리 d*를, 딥 네트워크 활성화 기반의 학습된 시각적 유사도 측정 지표인 LPIPS로 근사한다.
  • 모든 자연 이미지로부터 LPIPS 거리가 일정 이내인 모든 적대적 예제를 포함하는 신경망 기반의 시각적 위협 모델(NPTM)을 제안한다.
  • LPIPS 기반 제약 조건을 적용한 프로젝션 기반 경사 하강법(PGD)을 사용하여 인지 불가능한 적대적 예제를 생성하는 새로운 시각적 적대적 공격 기법을 개발한다.
  • 이러한 시각적 공격을 사용하여 적대적 훈련을 수행함으로써 Perceptual Adversarial Training(PAT)을 도입한다.
  • 자기지도 학습 및 사전 훈련된 모델(예: AlexNet)을 사용하여 공격 및 방어 시 LPIPS를 계산함으로써, 이식 가능한 강건성을 확보한다.

실험 결과

연구 질문

  • RQ1훈련 중에 볼 수 없었던 다양한 적대적 공격 유형에 대해, 넓은 시각적 위협 모델에 대해 훈련된 방어 기법이 일반화되는가?
  • RQ2전통적인 Lp 노름과 비교해 LPIPS 거리가 인간의 이미지 변형 인지와 얼마나 잘 관련되어 있는가?
  • RQ3신경망 기반의 시각적 위협 모델(NPTM) 하에서의 적대적 훈련이 L₂ 또는 L∞ 제약 조건 하에서의 표준 적대적 훈련보다 더 높은 강건성을 제공하는가?
  • RQ4PAT는 훈련 중에 명시적으로 타겟으로 삼지 않은 자연적 손상(예: 흐림, 노이즈, 날씨 변화 등)에도 일반화되는가?
  • RQ5기존의 표준 적대적 훈련 방법과 비교해 PAT를 사용할 경우 청결 정확도와 강건성 사이에 상충 관계가 존재하는가?

주요 결과

  • PAT는 CIFAR-10에서 최신 기술 수준의 강건성을 확보하였으며, L₂, L∞, 공간적 변형, 색상 재조정, JPEG 압축 등 다섯 가지 공격의 조합에 대해 다음 최고 성능 모델보다 정확도를 두 배 이상 높였다. 이는 이러한 공격 유형에 대해 훈련 중에 어떤 것도 사용하지 않은 상태에서 달성된 결과이다.
  • CIFAR-10-C에서 PAT는 상대적 평균 손상 오차(mCE)를 0.50(PAT-self) 및 0.49(PAT-AlexNet)로 기록하여, L₂ 적대적 훈련(0.54) 및 L∞ 적대적 훈련(0.57)보다 유의미하게 낮게 유지하였다.
  • ImageNet-100-C에서 PAT는 상대적 mCE를 0.37(PAT-self) 및 0.39(PAT-AlexNet)로 기록하여, L₂(0.41) 및 L∞(0.42) 적대적 훈련을 모두 초월하였다. 단, '노이즈' 손상 유형에서는 L₂가 가장 우수한 성능을 보였는데, 이는 L₂의 대칭 분포 특성 때문이었다.
  • LPIPS로 측정한 시각적 거리가 인간의 인지와 강하게 상관되어 있음을 인지 실험을 통해 검증하였으며, 이는 진정한 시각적 거리의 대체 측정치로 사용될 수 있음을 뒷받침한다.
  • PAT는 자연적 손상에 대한 강건성을 일반화하며, 최악의 시각적 변형에 대한 강건성이 실제로는 랜덤이고 현실적인 왜곡에 대해서도 강건성을 제공함을 시사한다.
  • PAT는 높은 청결 정확도(예: CIFAR-10에서 93.4%)를 유지하면서도 뛰어난 강건성을 확보하였으며, 이는 이전 방법들과 비교해 정확도와 강건성 사이의 상충 관계를 유리하게 조율하고 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.