QUICK REVIEW

[논문 리뷰] GenAttack: Practical Black-box Attacks with Gradient-Free Optimization

Moustafa Alzantot, Yash Sharma|arXiv (Cornell University)|2018. 05. 28.

Adversarial Robustness in Machine Learning참고 문헌 33인용 수 25

한 줄 요약

GenAttack는 극적으로 감소된 쿼리 복잡도로 깊이 신경망에 대해 눈에 띄지 않는 교란을 생성하는 기계적 학습 알고리즘을 사용한 기울기 자유의 블랙박스 적대적 공격을 소개한다. 이는 MNIST에서 ZOO보다 2,126배, CIFAR-10에서 2,568배, ImageNet에서 237배 더 적은 쿼리로 최신의 쿼리 효율성을 달성하며, 앙상블 적대적 훈련과 비가역성 있는 입력 변환과 같은 고도의 방어를 성공적으로 우회한다.

ABSTRACT

Deep neural networks are vulnerable to adversarial examples, even in the black-box setting, where the attacker is restricted solely to query access. Existing black-box approaches to generating adversarial examples typically require a significant number of queries, either for training a substitute network or performing gradient estimation. We introduce GenAttack, a gradient-free optimization technique that uses genetic algorithms for synthesizing adversarial examples in the black-box setting. Our experiments on different datasets (MNIST, CIFAR-10, and ImageNet) show that GenAttack can successfully generate visually imperceptible adversarial examples against state-of-the-art image recognition models with orders of magnitude fewer queries than previous approaches. Against MNIST and CIFAR-10 models, GenAttack required roughly 2,126 and 2,568 times fewer queries respectively, than ZOO, the prior state-of-the-art black-box attack. In order to scale up the attack to large-scale high-dimensional ImageNet models, we perform a series of optimizations that further improve the query efficiency of our attack leading to 237 times fewer queries against the Inception-v3 model than ZOO. Furthermore, we show that GenAttack can successfully attack some state-of-the-art ImageNet defenses, including ensemble adversarial training and non-differentiable or randomized input transformations. Our results suggest that evolutionary algorithms open up a promising area of research into effective black-box attacks.

연구 동기 및 목표

모델에 대한 쿼리 액세스만 가능할 때 기울기 계산에 의존하지 않는 실용적인 블랙박스 공격을 개발하는 것.
ImageNet과 같은 고차원, 대규모 모델에 대해 적대적 예제를 생성할 때 쿼리 효율성을 향상시키는 것.
비가역성 또는 랜덤화된 입력 변환과 같은 기울기 가로막기 방어가 존재할 경우 기울기 기반 공격의 한계를 극복하는 것.
실제 블랙박스 환경에서 높은 성공률을 보이는 타겟 적대적 예제를 생성하기 위해 집단 기반의 진화 최적화 기법의 효과를 입증하는 것.

제안 방법

GenAttack는 기계적 학습 알고리즘을 사용해 기울기 자유 최적화를 수행하며, 오차를 최소화하고 시각적 인식을 최소화하는 방향으로 교란의 집단을 진화시킨다.
타겟 클래스에 대한 모델의 신뢰도 점수를 기반으로 한 피트니스 함수를 사용하여, 성공적인 적대적 예제로의 진화를 이끈다.
적응형 돌연변이 비율을 적용하여 초기에는 탐색을 위해 높게 설정하고, 수렴에 가까워질수록 이용을 선호하도록 점차 감소시킨다.
고차원 데이터셋인 ImageNet과 같은 환경에서의 확장성과 쿼리 효율성을 향상시키기 위해 차원 축소 기법을 사용한다.
랜덤화된 방어에 일반화하기 위해 피트니스 함수를 랜덤 변환에 대한 기대값으로 계산하여 확률적 특성에 대한 강건성을 확보한다.
탐색과 쿼리 비용의 균형을 맞추기 위해 집단 크기를 신중히 조정하였으며, 작은 집단 크기(예: 6)가 쿼리 효율성을 최적화하는 데 효과적임을 보였다.

실험 결과

연구 질문

RQ1기계적 학습 알고리즘을 기반으로 한 기울기 자유 최적화 방법이 기존의 블랙박스 공격보다 현저히 높은 쿼리 효율성을 달성할 수 있는가?
RQ2이러한 접근 방식이 ImageNet에서 훈련된 고차원, 대규모 모델과 같은 대규모 모델에 효과적으로 스케일업될 수 있는가?
RQ3기계적 학습 알고리즘 기반의 공격이 기울기 가로막기나 입력 랜덤화에 의존하는 최신 방어 기법을 성공적으로 우회할 수 있는가?
RQ4적응형 돌연변이 비율과 차원 축소가 공격의 쿼리 효율성과 수렴 속도에 어떤 영향을 미치는가?

주요 결과

GenAttack는 MNIST 모델을 공격할 때 ZOO보다 약 2,126배 적은 쿼리 수를 사용하였다.
CIFAR-10에서 GenAttack은 ZOO보다 2,568배 더 적은 쿼리가 필요했으며, 더 복잡한 데이터셋에서도 뛰어난 효율성을 입증하였다.
ImageNet의 Inception-v3 모델에 대해 GenAttack은 ZOO보다 237배 더 적은 쿼리로 공격하여 대규모 모델에 대한 스케일업 능력을 입증하였다.
GenAttack은 ImageNet에서 앙상블 적대적 훈련 방어를 성공적으로 공격하여, 쿼리 수가 다소 증가했음에도 높은 성공률을 달성하였다.
ZOO가 완전히 실패한 비가역성 있는 입력 변환, 예를 들어 비트 깊이 감소와 JPEG 압축과 같은 변환에도 GenAttack은 성공적으로 공격에 실패하지 않았다.
GenAttack은 랜덤화된 방어에 대해 피트니스 함수를 랜덤 변환에 대한 기대값으로 일반화함으로써 강건성을 입증하였으며, 일관된 성공을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.