[논문 리뷰] Query-Efficient Hard-label Black-box Attack:An Optimization-based Approach
gradient 사용을 피하고 수렴 보장을 제공하며 MNIST, CIFAR, ImageNet에서 CNN 및 GBDT에 대해 쿼리 효율적인 성공을 보이는 hard-label black-box 공격에 대한 최적화 기반 프레임워크를 도입한다.
We study the problem of attacking a machine learning model in the hard-label black-box setting, where no model information is revealed except that the attacker can make queries to probe the corresponding hard-label decisions. This is a very challenging problem since the direct extension of state-of-the-art white-box attacks (e.g., CW or PGD) to the hard-label black-box setting will require minimizing a non-continuous step function, which is combinatorial and cannot be solved by a gradient-based optimizer. The only current approach is based on random walk on the boundary, which requires lots of queries and lacks convergence guarantees. We propose a novel way to formulate the hard-label black-box attack as a real-valued optimization problem which is usually continuous and can be solved by any zeroth order optimization algorithm. For example, using the Randomized Gradient-Free method, we are able to bound the number of iterations needed for our algorithm to achieve stationary points. We demonstrate that our proposed method outperforms the previous random walk approach to attacking convolutional neural networks on MNIST, CIFAR, and ImageNet datasets. More interestingly, we show that the proposed algorithm can also be used to attack other discrete and non-continuous machine learning models, such as Gradient Boosting Decision Trees (GBDT).
연구 동기 및 목표
- 모델이 hard-label black-box 설정에서 최종 결정만 관찰되는 취약성을 입증한다.
- Hard-label 공격을 연속적인 실수 최적화 문제로 재정의하여 제로차원 최적화를 가능하게 한다.
- 제한된 쿼리로 적대적 예를 찾기 위한 이론적으로 근거 있는 수렴 보장을 갖춘 알고리즘을 제공한다.
- CNN 및 Gradient Boosting Decision Trees (GBDT)에 대한 효과성과 쿼리 효율성을 입증한다.
제안 방법
- 공격을 θ에 대한 경계 기반의 실수값 목표 함수 g(θ)로 재정의하여 탐색 방향을 가장 가까운 적대 예와의 거리로 매핑한다.
- θ 방향으로의 경계 위치를 찾기 위해 세밀한 탐색과 이진 탐색의 두 단계 프로세스를 통해 hard-label 쿼리로 g(θ)를 계산한다.
- 무너진 평가(g)의 불확실한 평가를 기반으로 0차 도함수 추정치를 이용해 θ에 대해 g(θ)를 최소화하는 Randomized Gradient-Free (RGF) 최적화를 적용한다.
- 각 반복에서 여러 개의 무작위 가우시안 섭동을 사용해 기울기 추정치를 안정화하고, 스텝 크기를 조정하기 위한 백트래킹 라인 탐색을 사용한다.
- 이론적 수렴 보장을 제공한다: ∇g의 리플리시스 조건과 평가 오차 ε가 제어될 때, 알고리즘은 O(d/δ^2) 회에서 거의 정지 상태에 도달한다.
- 신경망뿐만 아니라 비연속 모델인 GB(D)은 Gradient Boosting Decision Trees(GBDT)에도 적용 가능성을 입증한다.
실험 결과
연구 질문
- RQ1hard-label black-box 공격을 제로차원 방법에 적합한 실수값 최적화 문제로 공식화할 수 있는가?
- RQ2이 설정에서 무작위 그래디언트 프리(RGF) 최적화를 사용할 때 수렴 보증 및 쿼리 복잡도는 무엇인가?
- RQ3제안 방법이 기존의 의사결정 기반 블랙박스 공격에 비해 왜곡 및 쿼리 효율성 측면에서 어떤 성능을 보이는가?
- RQ4GBDT와 같은 비미분적 모델에 이 방법이 적용 가능한가, 촘촘한 쿼리 예산에서 어떤 적대적 예를 찾을 수 있는가?
주요 결과
- 경계 기반 재정의 g(θ)는 제로차원 최적화에 적합한 연속적인 목표를 제공한다.
- Lipschitz 경사 하에서의 근사 함수 평가를 사용하는 RGF는 평가 오차가 제어될 경우 정지점으로 수렴한다.
- 본 방법은 untargeted 시나리오에서 MNIST, CIFAR-10, ImageNet에 대해 이전의 의사결정 기반 블랙박스 공격보다 더 낮거나 비슷한 왜곡을 더 적은 쿼리로 달성한다.
- 타깃 공격에서 이 방법은 MNIST와 CIFAR-10에서 더 적은 쿼리로 경쟁력 있는 왜곡을 달성하고 ImageNet에서도 더 많은 쿼리로 여전히 가능하다.
- GBDT와 같은 비미분 가능 모델에 대해 약 30,000 쿼리 정도로 공격에 성공하는 등 비미분 모델에의 적용 가능성이 확인된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.