QUICK REVIEW

[논문 리뷰] UPSET and ANGRI : Breaking High Performance Image Classifiers

Sayantan Sarkar, Ankan Bansal|arXiv (Cornell University)|2017. 07. 04.

Adversarial Robustness in Machine Learning참고 문헌 15인용 수 90

한 줄 요약

이 논문은 MNIST와 CIFAR-10에서 고성능 이미지 분류기를 속이기 위한 두 가지 블랙박스 타깃 공격 방법 UPSET(universal perturbations)와 ANGRI(image-specific perturbations)을 제시한다.

ABSTRACT

In this paper, targeted fooling of high performance image classifiers is achieved by developing two novel attack methods. The first method generates universal perturbations for target classes and the second generates image specific perturbations. Extensive experiments are conducted on MNIST and CIFAR10 datasets to provide insights about the proposed algorithms and show their effectiveness.

연구 동기 및 목표

고성능 이미지 분류기의 타깃 속임수를 동기 부여하고 다룬다.
타깃 클래스(target class)를 강제하기 위해 perturb 이미지들을 생성하는 두 공격 알고리즘 UPSET와 ANGRI를 도입한다.
MNIST와 CIFAR-10 데이터셋에서 공격 효과성과 충실도(fidelity)를 평가한다.
다른 피해자(classifier) 및 학습 체계(training schemes) 간의 일반화를 분석한다.

제안 방법

UPSET은 잔차 생성기 R을 사용하여 각 타깃 t에 대해 보편적 교란을 학습하고, 각 타깃 t에 대해 r_t를 생성한다; 악의적 이미지(x_hat)는 x_hat = clip_U(x, t)이고, x_hat = max(min(s * R(t) + x, 1), -1)이다.
ANGRI는 입력 이미지 x와 타깃 t를 전용 네트워크 A를 통해 결합하여 x_hat = A(x, t)로 이미지를 특정화한 교란을 생성한다.
두 방법은 손실 L = L_C(x_hat, t) + L_F(x, x_hat)를 최적화한다. 여기서 L_C는 다중 사전학습된 분류기들에 걸친 교차 엔트로피 오분류 손실이고, L_F는 충실도 손실( x와 x_hat 사이의 노름)이다.
UPSET의 경우 L_F는 ||R(x, t)||_2^2로 대체되는데, 교란이 잔차에 고유하기 때문이다.
실험은 MNIST와 CIFAR-10에서 Targeted Fooling Rate(TFR), Misclassification Rate(MR), Fidelity Score(FS), 그리고 Confidence(C)을 측정한다; 아키텍처는 MNIST와 CIFAR-10에 대해 상세히 기술된다.

실험 결과

연구 질문

RQ1블랙박스 교란 네트워크가 다수의 타깃 클래스에 걸쳐 타깃 속임수를 달성할 수 있는가?
RQ2보편적 교란(UPSET)과 이미지-특이적 교란(ANGRI)의 속임수 비율 및 시각적 충실도 측면에서의 비교 성능은 어떠한가?
RQ3UPSET과 ANGRI가 유사하거나 다른 피해자 분류기 아키텍처 간에 얼마나 잘 일반화되는가?
RQ4다양한 모델 동일 시점 학습이 공격의 교차 모델 일반화를 향상시키는가?
RQ5시각적 손실 가중치 w가 MNIST/CIFAR-10에서 타깃 속임수 및 충실도에 어떤 영향을 미치는가?

주요 결과

UPSET와 ANGRI는 블랙박스 설정에서 MNIST와 CIFAR-10에 대해 주목할 만한 타깃 속임수 비율을 달성한다.
ANGRI는 입력 의존적 교란을 사용하기 때문에 유사한 충실도 수준에서 일반적으로 UPSET보다 더 높은 TFR을 산출한다.
다중 분류기에 대한 동시 학습은 공격의 교차 모델 일반화를 향상시키는 경향이 있으며, 자기-공격 성능에 약간의 비용을 초래하는 경우가 많다.
교차 모델 속임수 비율은 구조가 유사한 분류기에 대해 더 높고, 하나의 구조에서 학습된 공격은 같은 유형의 다른 구조(CNN 또는 ResNet)에 더 잘 일반화된다.
타깃 클래스 달성 시 공격 확신도가 높아 성공적인 속임수 하에서 높은 오분류 확실성을 시사한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.