[논문 리뷰] Cascade Adversarial Machine Learning Regularized with a Unified Embedding
이 논문은 defended networks에서 반복적으로 생성된 adversarial images와 low-level embedding similarity regularization을 결합한 cascade adversarial training을 도입하여 알려지지 않은 반복 공격 및 블랙박스 시나리오에 대한 강인성을 향상시키되, 일부 clean accuracy 손실이 발생하는 비용이 따른다.
Injecting adversarial examples during training, known as adversarial training, can improve robustness against one-step attacks, but not for unknown iterative attacks. To address this challenge, we first show iteratively generated adversarial images easily transfer between networks trained with the same strategy. Inspired by this observation, we propose cascade adversarial training, which transfers the knowledge of the end results of adversarial training. We train a network from scratch by injecting iteratively generated adversarial images crafted from already defended networks in addition to one-step adversarial images from the network being trained. We also propose to utilize embedding space for both classification and low-level (pixel-level) similarity learning to ignore unknown pixel level perturbation. During training, we inject adversarial images without replacing their corresponding clean images and penalize the distance between the two embeddings (clean and adversarial). Experimental results show that cascade adversarial training together with our proposed low-level similarity learning efficiently enhances the robustness against iterative attacks, but at the expense of decreased robustness against one-step attacks. We show that combining those two techniques can also improve robustness under the worst case black box attack scenario.
연구 동기 및 목표
- unknown iterative adversaries beyond one-step attacks에 대한 강인성 격차를 동기부여한다.
- defended networks에서 adversarial training의 최종 결과를 전이하는 cascade adversarial training을 제안한다.
- training 중 픽셀 수준의扰 Perturbations를 무시하기 위한 low-level embedding regularization을 도입한다.
- MNIST와 CIFAR-10에서 ResNet 아키텍처로 평가한다.
- transferability, embedding space, white-box 및 black-box 공격하에서의 강인성 분석을 수행한다.
제안 방법
- 동일한 전략으로 학습된 네트워크 간 iteratively generated adversarial images의 전이 가능성을 입증한다.
- cascade adversarial training 개발: 이미 방어된 네트워크에서 crafted된 iter_FGSM 이미지를 함께 주어진 네트워크가 학습 중인 한 단계 공격 이미지와 함께 주입한다.
- 배치 내에 clean 이미지를 포함시키고 clean 및 adversarial 임베딩 간의 거리를 패널티하는 low-level similarity learning(L_dist)을 도입한다.
- 양방향 손실과 pivot loss의 두 가지 embedding regularization 변형을 탐구한다.
- 총 손실을 clean/adversarial 이미지에 대한 표준 분류 손실과 임베딩 거리 손실의 조합으로 정의하고, 하이퍼파라미터 lambda 및 lambda2를 활용한다.
- 임베딩 공간을 시각화하여 clean 임베딩과 adversarial 임베딩 간의 발산이 감소하는 것을 보여주고, lambda2가 성능에 미치는 영향을 연구한다.
- MNIST와 CIFAR-10에서 ResNet 백본으로 평가하며 white-box 및 black-box 공격 시나리오 분석을 수행한다.
실험 결과
연구 질문
- RQ1같은 전략으로 학습된 네트워크 간 iteratively generated adversarial 예시의 전이 가능성은 얼마나 되는가?
- RQ2cascade adversarial training이 clean accuracy를 과도하게 손실시키지 않으면서 반복적 adversarial 공격에 대한 강인성을 향상시킬 수 있는가?
- RQ3임베딩 기반 정규화(low-level similarity)가 픽셀 수준의扰에 대한 강인성을 강화하는가?
- RQ4제안된 접근법은 MNIST와 CIFAR-10에서 white-box 대 black-box 공격 설정에서 어떻게 성능을 발휘하는가?
- RQ5cascade training과 embedding regularization을 결합할 때 반복적 공격에 대한 강인성과 깨끗한 데이터 정확도 간의 트레이드오프는 어떠한가?
주요 결과
- defended networks에서 iter_FGSM를 사용하는 cascade adversarial training은 알려지지 않은 반복적 공격에 대한 강인성을 향상시키지만, 한 단계 공격에 대한 강인성은 다소 감소하는 경향이 있다.
- 저수준 유사성 학습은 임베딩을 규제하여 작은 입력 섭동이 더 가까운 고수준 표현을 만들어내도록 하여 MNIST와 같은 간단한 데이터셋에서 강인성을 향상시킨다.
- Pivot loss와 bidirectional embedding loss는 적대적 섭동을 효과적으로 규제하며, pivot loss가 임베딩 발산 감소에 특히 도움이 된다.
- cascade/ensemble training과 결합될 때, 이 방법은 단일 방법의 adversarial training에 비해 black-box 공격에서의 최악의 케이스 강인성을 더 잘 보인다.
- 강인성 향상의 대가로 clean 이미지 정확도가 감소하는 트레이드오프가 있으며, 이 효과는 데이터셋과 아키텍처에 따라 다르다; 전이 이점을 극대화하려면 cascade/source 네트워크에 동일한 초기화를 사용하는 것이 권장된다.
- Ensemble 및 cascade 전략과 저수준 유사성 학습을 함께 사용하면 CIFAR-10에서 반복적 white-box 및 black-box 공격에 대한 강인성이 향상되지만, clean 정확도 완전 보존에는 여전히 도전이 남아있다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.