[논문 리뷰] Output Diversified Initialization for Adversarial Attacks
이 논문은 적대적 공격 초기화 시 타겟 모델의 출력 다양성을 최대화하는 기울기 기반 초기화 전략인 출력 다원화 샘플링(ODS)을 제안한다. 다양한 예측 방향으로 모델을 이끌어내는 변형을 생성함으로써, 화이트박스 및_BLK박스 공격의 효율성을 햖스르며, ImageNet에서 최대 50%까지 쿼리 수를 감소시킨다.
Adversarial attacks often involve random perturbations of the inputs drawn from uniform or Gaussian distributions, e.g., to initialize optimization-based white-box attacks or generate update directions in black-box attacks. These simple perturbations, however, could be sub-optimal as they are agnostic to the model being attacked. To improve the efficiency of these attacks, we propose Output Diversified Sampling (ODS), a novel sampling strategy that attempts to maximize diversity in the target model's outputs among the generated samples. While ODS is a gradient-based strategy, the diversity offered by ODS is transferable and can be helpful for both white-box and black-box attacks via surrogate models. Empirically, we demonstrate that ODS significantly improves the performance of existing white-box and black-box attacks. In particular, ODS reduces the number of queries needed for state-of-the-art black-box attacks on ImageNet by a factor of two.
연구 동기 및 목표
- 모델 인식이 없는 표준 랜덤 변형이 적대적 공격에서 효율성이 떨어지는 문제를 해결하기 위해.
- 초기 변형에서 출력 다양성을 활용하여 화이트박스 및 블랙박스 적대적 공격의 성능을 향상시키기 위해.
- 다양한 공격 유형에 대해 이식 가능하고, 사전 모델을 사용할 때에도 효과적인 기울기 기반 샘플링 전략을 개발하기 위해.
- 특히 ImageNet과 같은 대규모 데이터셋에서 블랙박스 공격에 필요한 쿼리 수를 줄이기 위해.
제안 방법
- ODS는 여러 샘플에 걸쳐 타겟 모델의 출력 로짓에서 높은 다양성을 확보하기 위해 초기 변형을 생성한다.
- 기울기 기반 최적화를 사용하여 모델 예측의 엔트로피 또는 분산을 최대화하는 변형을 샘플링한다.
- 이 방법은 화이트박스 및 블랙박스 공격 프레임워크와 모두 호환되며, 특히 사전 모델에 의존하는 공격에 적합하다.
- 초기화 이후 진짜 모델의 기울기를 필요로 하지 않기 때문에, 쿼리 효율적인 블랙박스 공격에 적합하다.
- 다양성 목적함수는 모델의 출력 확률 또는 로짓을 사용하여 계산되며, 다양한 잘못된 분류 방향으로의 탐색을 장려한다.
- 특정 공격 알고리즘에 종속되지 않으며, 초기화 이후 공격 알고리즘에 즉각 통합할 수 있는 플러그 앤 플레이 성격을 지닌다.
실험 결과
연구 질문
- RQ1초기 변형에서의 출력 다양성이 적대적 공격의 성공률을 향상시킬 수 있는가?
- RQ2ODS는 블랙박스 공격에서 표준 랜덤 초기화와 비교해 쿼리 효율성이 어떻게 향상되는가?
- RQ3ODS가 유도하는 다양성은 다양한 공격 설정과 사전 모델 간에 얼마나 이식 가능한가?
- RQ4ODS는 ImageNet과 같은 대규모 벤치마크에서 공격 성능을 향상시키는가?
- RQ5ODS는 기존의 화이트박스 및 블랙박스 공격 방법과 효과적으로 조합될 수 있는가?
주요 결과
- ODS는 ImageNet에서 최신 블랙박스 공격의 쿼리 효율성을 크게 향상시켜 쿼리 수를 두 배로 감소시켰다.
- 다양성 유도 초기화는 화이트박스 및 블랙박스 공격 상황에서 더 빠른 수렴과 높은 성공률을 이끌어냈다.
- ODS는 블랙박스 공격에서 사전 모델를 사용할 때에도 효과적이며, 강력한 이식성과 함께 입증되었다.
- 공격 단계 동안 추가 기울기 계산이 필요 없이도 공격 성능을 향상시켰다.
- 실험 결과는 초기 변형에서의 출력 다양성이 더 효과적인 적대적 방향 탐색을 이끌어낸다는 것을 확인했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.