QUICK REVIEW

[논문 리뷰] Query-efficient Meta Attack to Deep Neural Networks

Jiawei Du, Hu Zhang|arXiv (Cornell University)|2019. 06. 06.

Adversarial Robustness in Machine Learning참고 문헌 33인용 수 30

한 줄 요약

이 논문은 이전 공격 패턴에서 일반화 가능한 사전 지식을 희석시키기 위해 메타 학습을 활용하여 딥 네URAL 네트워크의 블랙박스 적대적 공격에 대해 쿼리 효율적인 메타 공격 방법을 제안한다. 좌표별 기울기 추정을 사용하여 소수의 쿼리로 메타 공격자를 피지컬러닝함으로써, MNIST, CIFAR10 및 tiny-ImageNet에서 최신 기준보다 훨씬 적은 쿼리로 높은 공격 성공률를 달성한다.

ABSTRACT

Black-box attack methods aim to infer suitable attack patterns to targeted DNN models by only using output feedback of the models and the corresponding input queries. However, due to lack of prior and inefficiency in leveraging the query and feedback information, existing methods are mostly query-intensive for obtaining effective attack patterns. In this work, we propose a meta attack approach that is capable of attacking a targeted model with much fewer queries. Its high queryefficiency stems from effective utilization of meta learning approaches in learning generalizable prior abstraction from the previously observed attack patterns and exploiting such prior to help infer attack patterns from only a few queries and outputs. Extensive experiments on MNIST, CIFAR10 and tiny-Imagenet demonstrate that our meta-attack method can remarkably reduce the number of model queries without sacrificing the attack performance. Besides, the obtained meta attacker is not restricted to a particular model but can be used easily with a fast adaptive ability to attack a variety of models.The code of our work is available at https://github.com/dydjw9/MetaAttack_ICLR2020/.

연구 동기 및 목표

제한된 출력 피드백을 비효율적으로 활용하는 기존의 블랙박스 공격 방법의 높은 쿼리 비용을 해결한다.
이전 공격 패턴에서 일반화 가능한 사전 지식을 추출하고 활용하는 메타 학습 기반 접근법을 개발한다.
소수의 쿼리로 새로운 타겟 모델에 빠르게 적응할 수 있도록 메타 공격자의 파라미터를 미세조정함으로써, 최소한의 쿼리로도 빠른 적응을 가능하게 한다.
낮은 쿼리 수와 낮은 적대적 편향 크기를 유지하면서도 높은 공격 성공률를 달성한다.
재학습이 필요 없이 다양한 모델과 데이터셋에 걸쳐 일반화되는 메타 공격자를 확보한다.

제안 방법

다양한 아키텍처 간의 기울기 패턴에 대한 사전 지식을 학습하기 위해, 사전 학습된 모델 세트를 사용해 메타 공격자를 메타 학습(MAML 방식)으로 훈련한다.
블랙박스 모델이 반환하는 상위-k 클래스 확률에서만 기울기를 추정하기 위해 좌표별 기울기 추정을 사용한다.
타겟 모델에 대해 소수의 쿼리만으로 메타 공격자를 미세조정하여 내부 파라미터를 타겟 모델의 기울기 분포에 적응시킨다.
미세조정된 메타 공격자가 추정한 기울기를 사용해 적대적 노이즈를 업데이트함으로써 효율적이고 타겟된 편향 탐색을 가능하게 한다.
메타 훈련된 모델의 사전 지식을 활용해 최적화를 이끌어내어 효과적인 적대적 예제를 찾기 위해 필요한 쿼리 수를 줄인다.
메타 훈련 중에 하이퍼파ram터 q(상위-k 점수)와 β(학습률 스케일링)를 조정하여 쿼리 효율성과 공격 품질의 균형을 이룬다.

실험 결과

연구 질문

RQ1기존 공격 패턴에서 기울기 패턴에 대한 사전 지식을 메타 학습을 통해 효과적으로 구축할 수 있는가? 이는 블랙박스 환경에서 쿼리 효율성을 향상시키는 데 기여하는가?
RQ2재학습 없이도 메타 훈련된 공격자가 다양한 데이터셋과 모델 아키텍처 간에 얼마나 잘 일반화되는가?
RQ3쿼리 수, 성공률, 편향 크기 측면에서 최신 기준의 쿼리 효율적인 블랙박스 공격과 비교해 메타 공격 방법은 어떠한가?
RQ4새로운 타겟 모델에 대해 메타 공격자를 소수의 쿼리로 미세조정하면 성공 공격에 필요한 쿼리 수가 크게 감소하는가?
RQ5쿼리 효율성, 공격 성공률, 편향 크기 간의 최적 균형을 이루는 하이퍼파ram터 설정(예: q, β)은 무엇인가?

주요 결과

제안된 메타 공격 방법은 VGG19를 사용해 CIFAR10에서 3,667회의 쿼리로 0.93의 성공률를 달성했으며, Zoo(119,648), AutoZoom(53,778), Opt-attack(252,009)보다 훨씬 적은 쿼리로 성능을 냈다.
ResNet34를 사용한 tiny-ImageNet에서 이 방법은 12,897회의 쿼리로 0.54의 성공률를 기록했으며, Opt-attack(214,015회)와 Zoo(88,966회)를 모두 능가했다.
무작위로 초기화된 공격자와 비교해 메타 훈련된 공격자는 쿼리 수를 30% 감소시키고 L2 왜곡을 16% 감소시켰다. 이는 메타 훈련의 유용성을 입증한다.
CIFAR10에서 훈련한 메타 공격자는 tiny-ImageNet으로 잘 일반화되어 VGG19에서 12,275회의 쿼리로 0.55의 성공률를 기록했으며, 강력한 전이 가능성(transferability)을 보였다.
새로운 모델에 대해 메타 공격자를 미세조정하면 빠른 적응이 가능했으며, 소수의 쿼리 이후에도 높은 성능을 기록했다.
절단 분석 결과, q=500과 β=4e-3 설정이 성공률, 쿼리 효율성, 편향 크기 간의 최적 균형을 이룬다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.