QUICK REVIEW

[논문 리뷰] Divide, Denoise, and Defend against Adversarial Attacks

Seyed-Mohsen Moosavi-Dezfooli, Ashish Shrivastava|arXiv (Cornell University)|2018. 02. 19.

Adversarial Robustness in Machine Learning참고 문헌 51인용 수 27

한 줄 요약

이 논문은 입력 이미지를 겹치는 패치로 나누고, 학습된 청소화된 패치의 사전을 사용하여 비미분 가능한 매칭 퇄법 알고리즘으로 각 패치를 노이즈 제거한 후 이미지를 재구성하는 비미분 가능하고 공격에 관계없는 방어 기법인 D3를 제안한다. 이는 백색 상자 FGSM 공격 하에서 ImageNet에서 34.4%의 강건한 정확도를 달성하며, 이는 이전 연구에서 보고한 0% 정확도에 비해 크게 뛰어나며, 적대적 미세조정 없이도 최신 기술 수준의 강건성을 입증한다.

ABSTRACT

Deep neural networks, although shown to be a successful class of machine learning algorithms, are known to be extremely unstable to adversarial perturbations. Improving the robustness of neural networks against these attacks is important, especially for security-critical applications. To defend against such attacks, we propose dividing the input image into multiple patches, denoising each patch independently, and reconstructing the image, without losing significant image content. We call our method D3. This proposed defense mechanism is non-differentiable which makes it non-trivial for an adversary to apply gradient-based attacks. Moreover, we do not fine-tune the network with adversarial examples, making it more robust against unknown attacks. We present an analysis of the tradeoff between accuracy and robustness against adversarial attacks. We evaluate our method under black-box, grey-box, and white-box settings. On the ImageNet dataset, our method outperforms the state-of-the-art by 19.7% under grey-box setting, and performs comparably under black-box setting. For the white-box setting, the proposed method achieves 34.4% accuracy compared to the 0% reported in the recent works.

연구 동기 및 목표

보안 중심 응용 분야에서 딥 네트워크의 적대적 편향에 대한 취약성을 해결하기 위해.
적대적 미세조정이 필요 없이 알려지지 않은 기울기 기반 공격에 강건한 방어 기법을 개발하기 위해.
차원 축소와 비미분 가능한 노이즈 제거를 통해 청소화된 이미지 정확도를 유지하면서 강건성을 향상시키기 위해.
변환 과정을 비미분 가능하게 만들어 기울기 기반 공격에 대해 본질적으로 저항력을 갖춘 방어 기법을 설계하기 위해.
블랙박스, GRAY박스, 화이트박스 공격 설정에서 청소화된 정확도와 강건성 간의 트레이드오프를 분석하기 위해.

제안 방법

효율적 차원 축소와 공격자의 탐색 공간 제한을 위해 입력 이미지를 겹치는 패치로 나눈다.
청소화된 이미지 패치로 구성된 사전을 사용하여, 새로운 패치 선택 알고리즘을 통해 선별된 패치의 변형된 매칭 퇄법(MP)을 사용해 각 패치를 독립적으로 노이즈 제거한다.
원자 간 최소 각도 거리가 높고 다양한 특징을 가진 패치를 포함하도록 사전를 구성하여 강건성을 향상시킨다.
노이즈 제거 과정은 비미분 가능하므로, FGSM 및 BPDA와 같은 기울기 기반 역전파 공격을 방지한다.
백색 상자 설정에서 강건성을 추가로 향상시키기 위해 사전 선택 과정에 무작위화를 적용한다.
노이즈 제거된 패치들을 조합하여 최종 이미지를 재구성함으로써 의미 정보를 유지하면서 적대적 노이즈를 제거한다.

실험 결과

연구 질문

RQ1비미분 가능하고 패치 기반의 노이즈 제거 방어 기법이 ImageNet과 같은 대규모 데이터셋에서 최신 기술 수준의 강건성을 달성할 수 있는가?
RQ2패치 크기, 희박성 및 사전 성질에 따라 청소화된 정확도와 강건성 간의 트레이드오프는 어떻게 변하는가?
RQ3적대자가 네트워크와 방어 기법을 모두 알고 있는 백색 상자 공격 상황에서 방어 기법이 얼마나 잘 견뎌내는가?
RQ4적대자가 방어 기법에 접근할 수 없는 상황에서, 블랙박스 및 GRAY박스 설정에서도 방어 기법이 여전히 효과가 있는가?
RQ5청소화된 정확도를 떨어뜨리지 않고 무작위화를 통해 방어 기법의 강건성을 더 높일 수 있는가?

주요 결과

백색 상자 FGSM 공격 하에서 D3는 ImageNet에서 34.4%의 Top-1 정확도를 달성하였으며, 이는 이전 연구에서 보고한 0% 정확도에 비해 크게 향상된 성능이다.
GRAY박스 설정에서 D3는 ImageNet에서 최신 기술 수준의 방어 기법보다 19.7% 높은 강건한 정확도를 확보하였다.
무작위화를 적용함으로써 D3는 BPDA 공격 하에서 강건한 정확도를 13.0%에서 34.4%로 향상시켰으며, 기울기 기반 공격에 대한 저항력 향상을 입증하였다.
더 큰 패치 크기(최대 32×32)는 공격자의 효과적 탐색 공간을 줄여 강건성을 향상시키지만, 재구성 품질은 약간 떨어진다.
간단한 작업(예: 50개의 ImageNet 클래스)에서는 D3가 청소화된 정확도 91.7%를 유지하면서 백색 상자 공격 하에서 70.9%의 강건한 정확도를 달성하였다.
CIFAR-10에서는 D3가 FGSM 공격 하에서 87%의 청소화된 정확도와 80%의 강건한 정확도를 기록하였으며, FGSM에 특화된 방어 기법을 제외하고는 대부분의 기존 방어 기법보다 뛰어난 성능을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.