[논문 리뷰] Fast Feature Fool: A data independent approach to universal adversarial perturbations
이 논문은 다층에서 특징을 과포화시키며 다양한 아키텍처와 데이터셋에서 CNN을 속일 수 있는 데이터 독립적 보편적 적대적 교란을 제시합니다. 목표 데이터 없이도 전이 가능성을 달성합니다.
State-of-the-art object recognition Convolutional Neural Networks (CNNs) are shown to be fooled by image agnostic perturbations, called universal adversarial perturbations. It is also observed that these perturbations generalize across multiple networks trained on the same target data. However, these algorithms require training data on which the CNNs were trained and compute adversarial perturbations via complex optimization. The fooling performance of these approaches is directly proportional to the amount of available training data. This makes them unsuitable for practical attacks since its unreasonable for an attacker to have access to the training data. In this paper, for the first time, we propose a novel data independent approach to generate image agnostic perturbations for a range of CNNs trained for object recognition. We further show that these perturbations are transferable across multiple network architectures trained either on same or different data. In the absence of data, our method generates universal adversarial perturbations efficiently via fooling the features learned at multiple layers thereby causing CNNs to misclassify. Experiments demonstrate impressive fooling rates and surprising transferability for the proposed universal perturbations generated without any training data.
연구 동기 및 목표
- 보편적 교란에서의 데이터 의존성 문제를 다루고 적대적 강인성을 촉진한다.
- CNN 피처를 across-layer 로 속이는 데이터 독립적 최적화를 제안한다.
- 교차 아키텍처 및 교차 데이터 전이 가능성을 입증한다.
- 데이터 의존적 접근법에 비해 방법이 빠르게 수렴함을 보인다.
제안 방법
- CNN의 합성곱 계층에서 다층 피처 활성화를 최대화하도록 교란 벡터 delta 를 최적화한다.
- Loss 를 Loss = -log( product over i of l_i(delta) ) 로 정의하고, 여기서 l_i(delta) 는 ReLU 이후의 i 계층의 평균 활성화이다.
- 섭동은 ||delta||_8 < xi 의 L8-노름 제한으로 제약되어 보이지 않음을 보장한다 (xi = 10 in experiments).
- 네트워크 매개변수를 업데이트하거나 학습 데이터를 사용하지 않고 Adam을 이용해 그래디언트 기반 최적화를 통해 delta 를 업데이트한다.
- 합성곱(및 선택적 인셉션) 계층의 활성화를 타깃으로 하여 오분류를 야기하는 교란을 설계한다.
- 최적화 도중 보이지 않음 제약을 유지하기 위해 주기적으로 교란을 잘라내거나 재스케일링한다.
실험 결과
연구 질문
- RQ1대상 데이터에 접근하지 못한 상태에서 만들어진 교란이 대부분의 입력에서 CNN을 속일 수 있는가?
- RQ2데이터 독립적 보편적 교란이 같은 데이터 분포 또는 서로 다른 데이터 분포에서 학습된 서로 다른 네트워크 아키텍처로 전이되는가?
- RQ3같은 아키텍처의 데이터 셋 간 데이터 시프트에 대해 데이터 독립적 교란이 어느 정도까지 전이되는가?
- RQ4데이터 독립적 접근법은 속임수 비율과 수렴 시간 면에서 데이터 의존적 보편적 교란과 비교해 어떤 차이가 있는가?
주요 결과
- 이 방법은 여러 네트워크를 높은 확률로 속일 수 있는 데이터 독립적 보편적 교란을 생성한다.
- 동일 데이터셋으로 학습된 아키텍처 간에 교란이 전이되며, 테스트된 네트워크들 사이의 평균 전이 속임수 비율은 약 41%이다.
- 다른 데이터 분포로 학습된 네트워크 간에도 교란이 전이되며, 데이터 의존적 방법보다 교차 데이터셋 전이에서 우수하다.
- 더 작은 네트워크에서 얻은 교란으로 초기화를 하면 더 깊은 네트워크에서 측정 가능한 개선이 나타난다.
- 데이터 독립적 방법의 수렴 시간은 데이터 의존적 보편적 교란에 비해 현저히 빠르다(예: 수십 초 단위 대 수천 초 단위).
- 시각적 관찰에서 교란된 이미지는 지각적으로 구분할 수 없으면서도 오분류를 일으킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.