Skip to main content
QUICK REVIEW

[논문 리뷰] Defense against Universal Adversarial Perturbations

Naveed Akhtar, Jian Liu|arXiv (Cornell University)|2017. 11. 16.
Adversarial Robustness in Machine Learning참고 문헌 33인용 수 25
한 줄 요약

이 논문은 표준화된 적응적 노이즈를 가진 이미지를 복원하기 위한 전처리 모듈로 Perturbation Rectifying Network (PRN)을 사용하고, PRN 출력의 이산코사인변환(DCT) 기반 별도의 검출기로 구성된 새로운 방어 프레임워크를 제안한다. 이 방법은 미리 볼 수 없는 노이즈에 대해 최대 97.5%의 방어 성공률를 기록하며, 타겟 분류기의 재학습이나 수정 없이 다양한 네트워크 아키텍처로 일반화된다.

ABSTRACT

Recent advances in Deep Learning show the existence of image-agnostic quasi-imperceptible perturbations that when applied to `any' image can fool a state-of-the-art network classifier to change its prediction about the image label. These `Universal Adversarial Perturbations' pose a serious threat to the success of Deep Learning in practice. We present the first dedicated framework to effectively defend the networks against such perturbations. Our approach learns a Perturbation Rectifying Network (PRN) as `pre-input' layers to a targeted model, such that the targeted model needs no modification. The PRN is learned from real and synthetic image-agnostic perturbations, where an efficient method to compute the latter is also proposed. A perturbation detector is separately trained on the Discrete Cosine Transform of the input-output difference of the PRN. A query image is first passed through the PRN and verified by the detector. If a perturbation is detected, the output of the PRN is used for label prediction instead of the actual image. A rigorous evaluation shows that our framework can defend the network classifiers against unseen adversarial perturbations in the real-world scenarios with up to 97.5% success rate. The PRN also generalizes well in the sense that training for one targeted network defends another network with a comparable success rate.

연구 동기 및 목표

  • 최소한의 눈에 띄지 않는 노이즈로 어떤 이미지이든 깊이 신경망을 속일 수 있는 표준화된 적응적 노이즈의 심각한 위협을 해결한다.
  • 타겟 분류기의 재학습이나 수정 없이도 이미 배포된 모델에 쉽게 적용 가능한 방어 기법을 개발한다.
  • 학습 시 노이즈 유형이 알려지지 않은 실세계 상황에서도 표준화된 노이즈를 안정적으로 검출하고 복원할 수 있도록 한다.
  • 표준화된 노이즈의 본질적 다중모델 일반화 성질을 활용해 다양한 네트워크 아키텍처 간 일반화를 보장한다.
  • 모듈러하고 기밀 유지가 가능한 실용적인 방어 체계를 제공하며, PRN과 검출기의 구성 요소를 비밀 유지해 반-대응 조치에 저항할 수 있도록 한다.

제안 방법

  • 실제 및 합성된 표준화된 적응적 노이즈를 사용해, 표준화된 적응적 노이즈에 의해 손상된 이미지를 복원하는 Perturbation Rectifying Network (PRN)을 전처리 모듈로 학습한다.
  • 효율적인 합성 이미지 무관 노이즈 생성 방법을 제안하여 PRN 학습에 효과적으로 활용하며, Moosavi-Dezfooli [26]의 이론적 프레임워크를 확장한다.
  • 입력 이미지와 PRN 복원 출력 간의 차이에 대한 이산코사인변환(DCT)을 사용해 별도의 노이즈 검출기를 학습한다.
  • 검출기가 노이즈 존재를 확인한 경우에만 PRN 출력을 분류에 사용하고, 그렇지 않은 경우 원본 이미지를 사용한다.
  • 복원 차이의 DCT 특징을 분류하기 위해 서포트 벡터 머신(SVM)을 사용하여 높은 정확도의 노이즈 입력 검출을 실현한다.
  • PRN과 검출기를 비밀 유지 가능한 모듈러 구조로 설계하여, 악성 사용자가 적응 방어 전략을 개발하는 것을 방지한다.

실험 결과

연구 질문

  • RQ1기존에 학습된, 수정되지 않은 깊이 신경망이 아키텍처 변경 없이 표준화된 적응적 노이즈에 효과적으로 방어될 수 있는가?
  • RQ2학습 중에 볼 수 없었던 표준화된 적응적 노이즈에 의해 손상된 이미지를 복원하는 데에 학습된 Perturbation Rectifying Network (PRN)의 성능는 어떠한가?
  • RQ3PRN 출력의 차이를 기반으로 DCT 기반 검출기가 깨끗한 이미지와 노이즈가 첨부된 이미지를 신뢰성 있게 구분할 수 있는가?
  • RQ4특히 PRN 학습에 사용된 모델과 다를 경우, 방어 기법이 다양한 신경망 아키텍처 간에 얼마나 잘 일반화되는가?
  • RQ5미리 볼 수 없는 노이즈 유형과 테스트 이미지를 사용한 실세계 조건에서 방어 성능는 어떠한가?

주요 결과

  • 제안된 프레임워크는 이전에 볼 수 없었던 표준화된 노이즈로 훼손된 이미지에 대해 최대 97.5%의 방어 성공률를 기록하며 뛰어난 강건성을 입증한다.
  • PRN는 VGG-F에서 $\boldsymbol{\text{ℓ}_2}$-유형 노이즈 하에 93.2%의 복원 정확도, CaffeNet에서 90.3%, GoogLeNet에서 84.7%를 기록한다.
  • DCT 기반 검출기는 CaffeNet과 VGG-F에서 $\boldsymbol{\text{ℓ}_2}$-유형 노이즈에 대해 98.6%, $\boldsymbol{\text{ℓ}_\text{∞}}$-유형 노이즈에 대해 98.1%의 검출률을 기록하여 높은 신뢰성을 입증한다.
  • 프레임워크는 아키텍처 간에 잘 일반화된다: 한 네트워크에서 학습된 후 다른 네트워크에 대해 유사한 성능으로 방어가 가능하며, 특히 유사한 아키텍처를 가진 모델에서 뛰어난 성능를 보인다.
  • $\boldsymbol{\text{ℓ}_\text{∞}}$-유형 노이즈에 대해 GoogLeNet에서 검출률이 92.5%로 낮은 것은 노이즈의 $\boldsymbol{\text{ℓ}_2}$-노름이 낮기 때문에 발생하며, 이는 아키텍처에 따른 결정 경계 민감도의 영향을 시사한다.
  • PRN는 $\boldsymbol{\text{ℓ}_2}$ 및 $\boldsymbol{\text{ℓ}_\text{∞}}$-유형 노이즈 모두에서 높은 성능를 유지하며, 동일한 테스트/학습 노이즈 유형 하에서 대부분의 모델에서 90% 이상의 방어율을 기록한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.