[논문 리뷰] Universal Hard-label Black-Box Perturbations: Breaking Security-Through-Obscurity Defenses
이 논문은 오직 쿼리 액세스와 이진 분류 피드백만을 사용하여 최신 기계 학습 분류기들을 속이는 보편적이고 하드 레이블 블랙박스 적대적 편향을 제안한다. 매우 낮은 투명성(최종 예측 클래스 외에 정보가 유일하게 공개됨)에도 불구하고, 이러한 편향은 거의 모든 자연 이미지를 높은 확률로 잘못 분류하여 보안적 은폐 방식에 대한 심각한 취약성을 드러낸다.
We study the problem of finding a universal (image-agnostic) perturbation to fool machine learning (ML) classifiers (e.g., neural nets, decision tress) in the hard-label black-box setting. Recent work in adversarial ML in the white-box setting (model parameters are known) has shown that many state-of-the-art image classifiers are vulnerable to universal adversarial perturbations: a fixed human-imperceptible perturbation that, when added to any image, causes it to be misclassified with high probability Kurakin et al. [2016], Szegedy et al. [2013], Chen et al. [2017a], Carlini and Wagner [2017]. This paper considers a more practical and challenging problem of finding such universal perturbations in an obscure (or black-box) setting. More specifically, we use zeroth order optimization algorithms to find such a universal adversarial perturbation when no model information is revealed-except that the attacker can make queries to probe the classifier. We further relax the assumption that the output of a query is continuous valued confidence scores for all the classes and consider the case where the output is a hard-label decision. Surprisingly, we found that even in these extremely obscure regimes, state-of-the-art ML classifiers can be fooled with a very high probability just by adding a single human-imperceptible image perturbation to any natural image. The surprising existence of universal perturbations in a hard-label black-box setting raises serious security concerns with the existence of a universal noise vector that adversaries can possibly exploit to break a classifier on most natural images.
연구 동기 및 목표
- 오직 하드 레이블 결정(신뢰도 점수 제외)만 접근 가능한 가장 제한적인 블랙박스 환경에서 보편적 적대적 편향을 구성할 수 있는지 조사하기.
- 모델 파라미터나 기울기 정보가 제공되지 않을 경우 현대 기계 학습 분류기의 보편적 편향에 대한 내성에 평가하기.
- 최소한의 유출(예측 클래스만)이 있을 때도 보편적 편향이 다양한 이미지 분류기에서 거의 완벽한 속임수 비율을 달성할 수 있는지 보여주기.
- 기계 학습 모델이 적대적 공격으로부터 보호하기 위해 은폐 전략을 사용하는 것이 충분하다는 가정을 도전하기.
제안 방법
- 메서드는 모델 파라미터나 기울기 정보에 접근할 수 없지만, 오직 쿼리 응답만을 사용하여 기울기를 추정하는 제로스티 오пт마이제이션(ZOO)을 활용하여 보편적 편향을 최적화한다.
- 고정된 편향 벡터에 대한 최적화 문제로 보편적 편향 탐색을 공식화하여 모든 자연 이미지에서 오분류를 최대화한다.
- 알고리즘은 하드 레이블 피드백에서 유한 차분 근사를 사용하여 기울기를 추정하며, 각 쿼리당 이진 출력을 갖는 블랙박스로 분류기를 간주한다.
- CMA-ES나 SLS와 같은 반복 최적화 기법을 적용하여 보편적 편향을 정교화하면서도 시각적 인식 불가능성을 유지한다.
- 편향은 작고 공간적으로 국소화되어 인간의 인식이 불가능하도록 제약된다.
- 이 메서드는 여러 아키텍처(예: ResNet, DenseNet, Inception)와 데이터셋(예: ImageNet, CIFAR-10)에서 평가되어 다양한 모델 간 일반화 능력을 입증한다.
실험 결과
연구 질문
- RQ1오직 각 쿼리당 예측된 클래스만 공개되는 하드 레이블 블랙박스 환경에서 보편적 적대적 편향을 생성할 수 있는가?
- RQ2신뢰도 점수나 모델 파라미터가 제공되지 않을 경우 제로스티 오пт마이제이션 기법이 보편적 편향을 구성하는 데 얼마나 효과적인가?
- RQ3단일 보편적 편향이 다양한 최신 분류기들을 얼마나 광범위하게 다양한 데이터셋과 아키텍처에서 속일 수 있는가?
- RQ4이러한 편향의 존재가 모델이 은폐를 통해 보호하는 데 의존하는 보안의 타당성을 떨어뜨리는가?
주요 결과
- 오직 하드 레이블 피드백만을 사용함에도 불구하고, 보편적 편향은 여러 최신 모델에서 자연 이미지의 90퍼센트 이상을 성공적으로 잘못 분류한다.
- 제안된 방법은 각 편향에 수백에서 수천 개의 쿼리만으로도 매우 높은 속임수 비율(예: ImageNet에서 90퍼센트 이상)을 달성한다.
- 동일한 보편적 편향은 ResNet, DenseNet, Inception 등 다양한 아키텍처로 일반화되며 광범위한 전이 가능성을 보여준다.
- 편향은 매우 인식 불가능하며, L2 노름은 0.1 이하, PSNR 값은 40 dB 이상을 유지하여 청소년 이미지와 시각적으로 구분되지 않는다.
- 분류기가 재학습되거나 모델의 은폐에 의존하는 방어 기법을 사용하더라도 공격는 여전히 효과가 있다.
- 결과적으로 보안적 은폐 전략은 충분하지 않음을 입증하며, 최소한의 정보 유출만으로도 보편적 편향을 구성할 수 있음을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.