QUICK REVIEW

[논문 리뷰] DARCCC: Detecting Adversaries by Reconstruction from Class Conditional Capsules

Nicholas Frosst, Sara Sabour|arXiv (Cornell University)|2018. 11. 16.

Adversarial Robustness in Machine Learning참고 문헌 16인용 수 35

한 줄 요약

DARCCC는 캡슐 네트워크의 최상위 캡슐의 자세와 정체성에서 생성된 복원 이미지와 입력 이미지 간의 L2 복원 오차를 측정하여 적대적 이미지를 탐지한다. 이는 MNIST, 패션-MNIST, SVHN에서 흰 상자 공격에 대해 높은 탐지율을 기록하며 효과적으로 적대적 예외를 식별하지만, 더 강력한 복원 인식 공격(R-BIM)은 적대적 이미지가 대상 클래스와 유사하게 만들어 탐지 회피가 가능하다.

ABSTRACT

We present a simple technique that allows capsule models to detect adversarial images. In addition to being trained to classify images, the capsule model is trained to reconstruct the images from the pose parameters and identity of the correct top-level capsule. Adversarial images do not look like a typical member of the predicted class and they have much larger reconstruction errors when the reconstruction is produced from the top-level capsule for that class. We show that setting a threshold on the $l2$ distance between the input image and its reconstruction from the winning capsule is very effective at detecting adversarial images for three different datasets. The same technique works quite well for CNNs that have been trained to reconstruct the image from all or part of the last hidden layer before the softmax. We then explore a stronger, white-box attack that takes the reconstruction error into account. This attack is able to fool our detection technique but in order to make the model change its prediction to another class, the attack must typically make the "adversarial" image resemble images of the other class.

연구 동기 및 목표

데이터 다양체나 적대적 분포에 대한 가정 없이도 공격에 독립적인 적대적 탐지 방법을 개발하는 것.
캡슐 네트워크의 복원 서브넷을 활용하여 복원 정밀도 기반으로 적대적 예외를 탐지하는 것.
표준 CNN에 이 탐지 기법을 확장하기 위해 은닉 특징에서 복원하도록 훈련하는 것.
다양한 데이터셋에서 흑상자 및 백상자 적대적 공격에 대한 탐지 성능을 평가하는 것.
DARCCC 탐지를 우회하기 위해 복원 오차를 고려한 더 강력한 백상자 공격(R-BIM)을 설계하는 것.

제안 방법

입력 이미지를 최상위 캡슐의 자세와 정체성에서 복원하는 복원 헤드를 갖춘 캡슐 네트워크를 훈련한다.
입력 이미지와 복원 이미지 간의 L2 거리를 적대적 예외 탐지 지표로 사용한다.
고정된 임계값을 적용하여 복원 오차가 임계값을 초과하면 입력을 적대적이라고 표시한다.
최종 소프트맥스 이전의 은닉 레이어에서 복원하도록 훈련된 CNN에 동일한 복원 오차 지표를 적용하여 이 기법을 확장한다.
DARCCC 탐지를 우회하기 위해 분류 손실과 복원 오차를 동시에 최소화하는 새로운 공격 R-BIM을 설계한다.
분류 오류와 양호한 복원 품질을 고려한 기울기 단계를 포함한 반복 최적화를 수행한다.

실험 결과

연구 질문

RQ1클래스 조건부 캡슐 표현에서 유도된 복원 오차는 다양한 데이터셋에서 적대적 예외를 효과적으로 탐지할 수 있는가?
RQ2DARCCC는 흑상자 및 백상자 적대적 공격, 특히 FGSM 및 BIM에 대해 어떻게 성능을 내는가?
RQ3은닉 표현에서 복원하도록 훈련된 표준 CNN에 이 탐지 기법을 일반화할 수 있는가?
RQ4복원 인식 공격(R-BIM)은 DARCCC의 탐지 성능에 어떤 영향을 미치는가?
RQ5복원 오차를 최소화하도록 제작된 적대적 예외는 시각적으로 타당하며 대상 클래스의 이미지와 유사한가?

주요 결과

DARCCC는 MNIST, 패션-MNIST, SVHN에서 FGSM 및 BIM 공격에 대해 공격 탐지율(95% 이상)과 성공적 공격 탐지율(90% 이상)을 기록한다.
캡슐 모델은 특히 SVHN에서 탐지 정확도에서 CNN보다 뛰어난 성능을 보이며, 강력한 탐지 성능 유지를 유지한다.
간단한 데이터셋에서는 복원 오차가 의미적 유사성과 강하게 상관되지만, ImageNet이나 CIFAR-10와 같은 복잡한 데이터셋에서는 이 상관관계가 약화된다.
R-BIM 공격은 대상 클래스와 유사한 적대적 이미지를 생성함으로써 DARCCC 탐지를 성공적으로 우회한다.
탐지 회피는 가능하지만, R-BIM은 표준 BIM 공격에 비해 모델 예측을 변경하는 데 훨씬 덜 효과적이며, 이는 회피와 오분류 사이의 트레이드오��을 시사한다.
복원 오차를 최소화하도록 제작된 적대적 예외는 종종 현실적인 대상 클래스의 이미지처럼 보이며, 이는 데이터 다양체와의 일치를 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.