QUICK REVIEW

[논문 리뷰] SafetyNet: Detecting and Rejecting Adversarial Examples Robustly

Jiajun Lu, Theerasit Issaranon|arXiv (Cornell University)|2017. 04. 01.

Adversarial Robustness in Machine Learning참고 문헌 23인용 수 41

한 줄 요약

이 논문은 RBF-SVM 검출기로 양자화된 ReLU 활성화 패턴을 분석하여 적대적 예제를 탐지하고 거부하는 강건한 방어 기법인 SafetyNet을 제안한다. 다양한 데이터셋과 네트워크에서 유형 I 및 유형 II 공격에 대해 강력한 저항성을 보이며, 예측 가능한 오진률이 매우 낮고, 알려지지 않은 공격 방법에 대해서도 높은 탐지율을 기록한다.

ABSTRACT

We describe a method to produce a network where current methods such as DeepFool have great difficulty producing adversarial samples. Our construction suggests some insights into how deep networks work. We provide a reasonable analyses that our construction is difficult to defeat, and show experimentally that our method is hard to defeat with both Type I and Type II attacks using several standard networks and datasets. This SafetyNet architecture is used to an important and novel application SceneProof, which can reliably detect whether an image is a picture of a real scene or not. SceneProof applies to images captured with depth maps (RGBD images) and checks if a pair of image and depth map is consistent. It relies on the relative difficulty of producing naturalistic depth maps for images in post processing. We demonstrate that our SafetyNet is robust to adversarial examples built from currently known attacking approaches.

연구 동기 및 목표

기울기 기반 방어에 의존하지 않고도 적대적 예제를 신뢰성 있게 탐지하고 거부할 수 있는 방어 기법을 개발하는 것.
기존 탐지 방법의 취약성을 해결하는 것 — 즉, 탐지되지 않지만 잘못 분류되는 예를 만드는 유형 II 공격에 대한 대응.
이식 가능하고 유니버설 편향이 있는 공격 유형을 포함한 다양한 공격 유형에 대해 적대적 탐지의 일반화를 향상시키는 것.
SceneProof라는 SafetyNet의 새로운 응용을 통해 실세계 응용에서 비자연스러운 이미지-깊이 쌍을 신뢰성 있게 탐지할 수 있도록 하는 것.
기울기 기반 또는 이식 기반 공격으로도 쉽게 공격할 수 없는 이론적으로 탄탄한 강건한 탐지 프레임워크를 제공하는 것.

제안 방법

사전 훈련된 딥 분류기(예: VGG19 또는 ResNet)와 늦은 단계의 ReLU 활성화에서 유도된 이산 코드를 분석하는 RBF-SVM 검출기를 통합한다.
활성화 패턴은 이산 코드로 양자화되어 고수준 특징 통계를 포괄하는 압축된 표현을 형성한다.
RBF-SVM은 자연 이미지에서 훈련되어 유효한 활성화 패턴의 분포를 학습하며, 이로 인해 이심을 탐지할 수 있다.
이 방법은 적대적 예제가 조작된 활성화 패턴을 유도함으로써 유형 II 공격에 강건하도록 설계되어 있으며, 잘못 분류되지 않더라도 비정상적인 활성화 패턴을 유도한다.
SceneProof는 동일한 활성화 기반 탐지 원리를 활용하여 RGB-D 이미지로 SafetyNet을 확장한다. 이는 RGB 이미지와 깊이 맵 간의 일관성 없음을 탐지함으로써 작동한다.
시스템은 자연스러운 장면 쌍에서 훈련하고, 다양한 비자연스러운 입력(예: 깊이가 0인 경우, 다운샘플링된 경우, 압축된 경우, 합성된 경우)에서 테스트하여 알려지지 않은 비자연스러운 데이터 유형으로의 일반화를 확보한다.

실험 결과

연구 질문

RQ1늦은 단계의 ReLU 활성화 패턴 기반 검출기가 다양한 공격 유형에서 적대적 예제와 자연스러운 입력을 신뢰성 있게 구분할 수 있는가?
RQ2제안된 탐지 메커니즘이 탐지되지 않지만 잘못 분류되는 예를 만드는 유형 II 공격에 대해 강건한가?
RQ3동일한 탐지 메커니즘이 인위적으로 조작되거나 합성된 RGB-D 쌍과 같은 알려지지 않은 데이터 분포로 일반화될 수 있는가?
RQ4훈련 중에 관찰되지 않은 공격 방법(예: 이식 공격 포함)으로 공격받을 경우, 탐지기가 얼마나 효과적으로 유지되는가?
RQ5이 탐지 프레임워크는 실세계의 다중 모odal 데이터(예: RGB-D 이미지)에 효과적으로 적용되어 비자연스럽거나 위조된 입력을 탐지할 수 있는가?

주요 결과

ImageNet-1000에서 DeepFool5 공격에 대해 SafetyNet은 잘못 분류된 적대적 예제의 97.67%를 탐지했으며, 2.32%만이 탐지 회피에 성공했다.
CIFAR-10에서 정규화된 m-SVM 검출기는 빠른 기울기 공격에 대해 잘못 분류된 적대적 예제의 95.51%를 탐지했으며, 이 중 96.24%는 거부되었다.
ImageNet-1000에서의 유형 II 공격에 대해 정규화된 m-SVM 검출기는 잘못 분류된 적대적 예제의 97.67%를 탐지하여 강력한 강건성을 입증했다.
SceneProof는 높은 정확도로 비자연스러운 이미지-깊이 쌍을 탐지했다: 저품질 JPG 압축 쌍의 100%와 합성 Sintel 쌍의 95.51%가 거부되었다.
이 검출기는 알려지지 않은 비자연스러운 입력으로의 일반화가 잘 되었으며, CIFAR-10 테스트 세트에서 알려지지 않은 공격으로 생성된 적대적 예제의 87.94%를 거부했다.
기존의 탐지 방법(예: Metzen 등에 의한 방법)은 훈련에 사용되지 않은 적대적 예제에 쉽게 속아서, 본 방법은 그에 비해 상당히 뛰어난 성능을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.