[논문 리뷰] GenAttack: Practical Black-box Attacks with Gradient-Free Optimization
GenAttack는 극적으로 감소된 쿼리 복잡도로 깊이 신경망에 대해 눈에 띄지 않는 교란을 생성하는 기계적 학습 알고리즘을 사용한 기울기 자유의 블랙박스 적대적 공격을 소개한다. 이는 MNIST에서 ZOO보다 2,126배, CIFAR-10에서 2,568배, ImageNet에서 237배 더 적은 쿼리로 최신의 쿼리 효율성을 달성하며, 앙상블 적대적 훈련과 비가역성 있는 입력 변환과 같은 고도의 방어를 성공적으로 우회한다.
Deep neural networks are vulnerable to adversarial examples, even in the black-box setting, where the attacker is restricted solely to query access. Existing black-box approaches to generating adversarial examples typically require a significant number of queries, either for training a substitute network or performing gradient estimation. We introduce GenAttack, a gradient-free optimization technique that uses genetic algorithms for synthesizing adversarial examples in the black-box setting. Our experiments on different datasets (MNIST, CIFAR-10, and ImageNet) show that GenAttack can successfully generate visually imperceptible adversarial examples against state-of-the-art image recognition models with orders of magnitude fewer queries than previous approaches. Against MNIST and CIFAR-10 models, GenAttack required roughly 2,126 and 2,568 times fewer queries respectively, than ZOO, the prior state-of-the-art black-box attack. In order to scale up the attack to large-scale high-dimensional ImageNet models, we perform a series of optimizations that further improve the query efficiency of our attack leading to 237 times fewer queries against the Inception-v3 model than ZOO. Furthermore, we show that GenAttack can successfully attack some state-of-the-art ImageNet defenses, including ensemble adversarial training and non-differentiable or randomized input transformations. Our results suggest that evolutionary algorithms open up a promising area of research into effective black-box attacks.
연구 동기 및 목표
- 모델에 대한 쿼리 액세스만 가능할 때 기울기 계산에 의존하지 않는 실용적인 블랙박스 공격을 개발하는 것.
- ImageNet과 같은 고차원, 대규모 모델에 대해 적대적 예제를 생성할 때 쿼리 효율성을 향상시키는 것.
- 비가역성 또는 랜덤화된 입력 변환과 같은 기울기 가로막기 방어가 존재할 경우 기울기 기반 공격의 한계를 극복하는 것.
- 실제 블랙박스 환경에서 높은 성공률을 보이는 타겟 적대적 예제를 생성하기 위해 집단 기반의 진화 최적화 기법의 효과를 입증하는 것.
제안 방법
- GenAttack는 기계적 학습 알고리즘을 사용해 기울기 자유 최적화를 수행하며, 오차를 최소화하고 시각적 인식을 최소화하는 방향으로 교란의 집단을 진화시킨다.
- 타겟 클래스에 대한 모델의 신뢰도 점수를 기반으로 한 피트니스 함수를 사용하여, 성공적인 적대적 예제로의 진화를 이끈다.
- 적응형 돌연변이 비율을 적용하여 초기에는 탐색을 위해 높게 설정하고, 수렴에 가까워질수록 이용을 선호하도록 점차 감소시킨다.
- 고차원 데이터셋인 ImageNet과 같은 환경에서의 확장성과 쿼리 효율성을 향상시키기 위해 차원 축소 기법을 사용한다.
- 랜덤화된 방어에 일반화하기 위해 피트니스 함수를 랜덤 변환에 대한 기대값으로 계산하여 확률적 특성에 대한 강건성을 확보한다.
- 탐색과 쿼리 비용의 균형을 맞추기 위해 집단 크기를 신중히 조정하였으며, 작은 집단 크기(예: 6)가 쿼리 효율성을 최적화하는 데 효과적임을 보였다.
실험 결과
연구 질문
- RQ1기계적 학습 알고리즘을 기반으로 한 기울기 자유 최적화 방법이 기존의 블랙박스 공격보다 현저히 높은 쿼리 효율성을 달성할 수 있는가?
- RQ2이러한 접근 방식이 ImageNet에서 훈련된 고차원, 대규모 모델과 같은 대규모 모델에 효과적으로 스케일업될 수 있는가?
- RQ3기계적 학습 알고리즘 기반의 공격이 기울기 가로막기나 입력 랜덤화에 의존하는 최신 방어 기법을 성공적으로 우회할 수 있는가?
- RQ4적응형 돌연변이 비율과 차원 축소가 공격의 쿼리 효율성과 수렴 속도에 어떤 영향을 미치는가?
주요 결과
- GenAttack는 MNIST 모델을 공격할 때 ZOO보다 약 2,126배 적은 쿼리 수를 사용하였다.
- CIFAR-10에서 GenAttack은 ZOO보다 2,568배 더 적은 쿼리가 필요했으며, 더 복잡한 데이터셋에서도 뛰어난 효율성을 입증하였다.
- ImageNet의 Inception-v3 모델에 대해 GenAttack은 ZOO보다 237배 더 적은 쿼리로 공격하여 대규모 모델에 대한 스케일업 능력을 입증하였다.
- GenAttack은 ImageNet에서 앙상블 적대적 훈련 방어를 성공적으로 공격하여, 쿼리 수가 다소 증가했음에도 높은 성공률을 달성하였다.
- ZOO가 완전히 실패한 비가역성 있는 입력 변환, 예를 들어 비트 깊이 감소와 JPEG 압축과 같은 변환에도 GenAttack은 성공적으로 공격에 실패하지 않았다.
- GenAttack은 랜덤화된 방어에 대해 피트니스 함수를 랜덤 변환에 대한 기대값으로 일반화함으로써 강건성을 입증하였으며, 일관된 성공을 보였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.