QUICK REVIEW

[논문 리뷰] Defense against Universal Adversarial Perturbations

Naveed Akhtar, Jian Liu|arXiv (Cornell University)|2017. 11. 16.

Adversarial Robustness in Machine Learning참고 문헌 33인용 수 25

한 줄 요약

이 논문은 표준화된 적응적 노이즈를 가진 이미지를 복원하기 위한 전처리 모듈로 Perturbation Rectifying Network (PRN)을 사용하고, PRN 출력의 이산코사인변환(DCT) 기반 별도의 검출기로 구성된 새로운 방어 프레임워크를 제안한다. 이 방법은 미리 볼 수 없는 노이즈에 대해 최대 97.5%의 방어 성공률를 기록하며, 타겟 분류기의 재학습이나 수정 없이 다양한 네트워크 아키텍처로 일반화된다.

ABSTRACT

Recent advances in Deep Learning show the existence of image-agnostic quasi-imperceptible perturbations that when applied to `any' image can fool a state-of-the-art network classifier to change its prediction about the image label. These `Universal Adversarial Perturbations' pose a serious threat to the success of Deep Learning in practice. We present the first dedicated framework to effectively defend the networks against such perturbations. Our approach learns a Perturbation Rectifying Network (PRN) as `pre-input' layers to a targeted model, such that the targeted model needs no modification. The PRN is learned from real and synthetic image-agnostic perturbations, where an efficient method to compute the latter is also proposed. A perturbation detector is separately trained on the Discrete Cosine Transform of the input-output difference of the PRN. A query image is first passed through the PRN and verified by the detector. If a perturbation is detected, the output of the PRN is used for label prediction instead of the actual image. A rigorous evaluation shows that our framework can defend the network classifiers against unseen adversarial perturbations in the real-world scenarios with up to 97.5% success rate. The PRN also generalizes well in the sense that training for one targeted network defends another network with a comparable success rate.

연구 동기 및 목표

최소한의 눈에 띄지 않는 노이즈로 어떤 이미지이든 깊이 신경망을 속일 수 있는 표준화된 적응적 노이즈의 심각한 위협을 해결한다.
타겟 분류기의 재학습이나 수정 없이도 이미 배포된 모델에 쉽게 적용 가능한 방어 기법을 개발한다.
학습 시 노이즈 유형이 알려지지 않은 실세계 상황에서도 표준화된 노이즈를 안정적으로 검출하고 복원할 수 있도록 한다.
표준화된 노이즈의 본질적 다중모델 일반화 성질을 활용해 다양한 네트워크 아키텍처 간 일반화를 보장한다.
모듈러하고 기밀 유지가 가능한 실용적인 방어 체계를 제공하며, PRN과 검출기의 구성 요소를 비밀 유지해 반-대응 조치에 저항할 수 있도록 한다.

제안 방법

실제 및 합성된 표준화된 적응적 노이즈를 사용해, 표준화된 적응적 노이즈에 의해 손상된 이미지를 복원하는 Perturbation Rectifying Network (PRN)을 전처리 모듈로 학습한다.
효율적인 합성 이미지 무관 노이즈 생성 방법을 제안하여 PRN 학습에 효과적으로 활용하며, Moosavi-Dezfooli [26]의 이론적 프레임워크를 확장한다.
입력 이미지와 PRN 복원 출력 간의 차이에 대한 이산코사인변환(DCT)을 사용해 별도의 노이즈 검출기를 학습한다.
검출기가 노이즈 존재를 확인한 경우에만 PRN 출력을 분류에 사용하고, 그렇지 않은 경우 원본 이미지를 사용한다.
복원 차이의 DCT 특징을 분류하기 위해 서포트 벡터 머신(SVM)을 사용하여 높은 정확도의 노이즈 입력 검출을 실현한다.
PRN과 검출기를 비밀 유지 가능한 모듈러 구조로 설계하여, 악성 사용자가 적응 방어 전략을 개발하는 것을 방지한다.

실험 결과

연구 질문

RQ1기존에 학습된, 수정되지 않은 깊이 신경망이 아키텍처 변경 없이 표준화된 적응적 노이즈에 효과적으로 방어될 수 있는가?
RQ2학습 중에 볼 수 없었던 표준화된 적응적 노이즈에 의해 손상된 이미지를 복원하는 데에 학습된 Perturbation Rectifying Network (PRN)의 성능는 어떠한가?
RQ3PRN 출력의 차이를 기반으로 DCT 기반 검출기가 깨끗한 이미지와 노이즈가 첨부된 이미지를 신뢰성 있게 구분할 수 있는가?
RQ4특히 PRN 학습에 사용된 모델과 다를 경우, 방어 기법이 다양한 신경망 아키텍처 간에 얼마나 잘 일반화되는가?
RQ5미리 볼 수 없는 노이즈 유형과 테스트 이미지를 사용한 실세계 조건에서 방어 성능는 어떠한가?

주요 결과

제안된 프레임워크는 이전에 볼 수 없었던 표준화된 노이즈로 훼손된 이미지에 대해 최대 97.5%의 방어 성공률를 기록하며 뛰어난 강건성을 입증한다.
PRN는 VGG-F에서 $\boldsymbol{\text{ℓ}_2}$-유형 노이즈 하에 93.2%의 복원 정확도, CaffeNet에서 90.3%, GoogLeNet에서 84.7%를 기록한다.
DCT 기반 검출기는 CaffeNet과 VGG-F에서 $\boldsymbol{\text{ℓ}_2}$-유형 노이즈에 대해 98.6%, $\boldsymbol{\text{ℓ}_\text{∞}}$-유형 노이즈에 대해 98.1%의 검출률을 기록하여 높은 신뢰성을 입증한다.
프레임워크는 아키텍처 간에 잘 일반화된다: 한 네트워크에서 학습된 후 다른 네트워크에 대해 유사한 성능으로 방어가 가능하며, 특히 유사한 아키텍처를 가진 모델에서 뛰어난 성능를 보인다.
$\boldsymbol{\text{ℓ}_\text{∞}}$-유형 노이즈에 대해 GoogLeNet에서 검출률이 92.5%로 낮은 것은 노이즈의 $\boldsymbol{\text{ℓ}_2}$-노름이 낮기 때문에 발생하며, 이는 아키텍처에 따른 결정 경계 민감도의 영향을 시사한다.
PRN는 $\boldsymbol{\text{ℓ}_2}$ 및 $\boldsymbol{\text{ℓ}_\text{∞}}$-유형 노이즈 모두에서 높은 성능를 유지하며, 동일한 테스트/학습 노이즈 유형 하에서 대부분의 모델에서 90% 이상의 방어율을 기록한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.