QUICK REVIEW

[논문 리뷰] Prior Convictions: Black-Box Adversarial Attacks with Bandits and Priors

Andrew Ilyas, Logan Engstrom|arXiv (Cornell University)|2018. 07. 20.

Adversarial Robustness in Machine Learning참고 문헌 22인용 수 199

한 줄 요약

논문은 gradient priors를 활용해 블랙박스 적대적 공격을 더 효율적으로 수행하는 밴딧 최적화 프레임워크를 제시하며, 이전 방법에 비해 쿼리 수 및 실패율을 감소시킨다.

ABSTRACT

We study the problem of generating adversarial examples in a black-box setting in which only loss-oracle access to a model is available. We introduce a framework that conceptually unifies much of the existing work on black-box attacks, and we demonstrate that the current state-of-the-art methods are optimal in a natural sense. Despite this optimality, we show how to improve black-box attacks by bringing a new element into the problem: gradient priors. We give a bandit optimization-based algorithm that allows us to seamlessly integrate any such priors, and we explicitly identify and incorporate two examples. The resulting methods use two to four times fewer queries and fail two to five times less often than the current state-of-the-art.

연구 동기 및 목표

그래디언트 추정을 쿼리 효율적인 블랙박스 공격의 중심 문제로 형식화하고, 일반적인 설정에서 최소제곱 추정이 최적임을 보인다.
그래디언트의 구조를 활용하기 위해 시간 의존적 및 데이터 의존적 그래디언트 priors를 도입한다.
공격 예제 생성을 위한 그래디언트 추정에 priors를 통합하는 밴딧 최적화 프레임워크를 개발한다.
ImageNet 분류기에 대한 기존 최첨단 대비 쿼리 효율성과 실패율의 상당한 개선을 입증한다.

제안 방법

그래디언트 추정 작업을 밴딧 문제로 모델링한다. 행동은 그래디언트 추정치이고 손실은 실제 그래디언트와의 내적 정합성을 측정한다.
최소제곱 그래디언트 추정이 NES와 동등하며 불충분하게 결정된 영역에서 최적임을 보인다.
두 가지 그래디언트 priors를 제안한다: 시간 의존적(최적화 경로를 따라 그래디언트의 상관관계) 및 데이터 의존적(타일링을 통한 공간 그래디언트 유사성).
밴딧 업데이트 내에서 두 쿼리의 구면 그래디언트 추정기를 사용한다(A가 v_t를 업데이트; g_t = v_t의 프로젝션).
밴딧으로 최적화된 그래디언트를 이용해 입력을 프로젝션된 그래디언트 스텝으로 업데이트하고, perturbation 세트로 다시 투영하여 반복적 adversarial 공격을 수행한다.

실험 결과

연구 질문

RQ1프라이어를 활용해 블랙박스 적대적 공격의 그래디언트 추정이 더 효율적으로 가능할까?
RQ2그래디언트에 대한 어떤 시간 의존적/데이터 의존적 priors가 쿼리 효율성을 높이고 실패율을 감소시키는가?
RQ3그래디언트 priors를 블랙박스 적대 예제 생성에 통합하기 위한 원칙 있는 밴딧 프레임워크가 있는가?
RQ4l2 및 l-infinity 제약 조건하의 ImageNet 공격에서 priors가 성능에 어떤 영향을 미치는가?

주요 결과

Attack	Avg. Queries (l_inf)	Avg. Queries (l2)	Failure Rate (l_inf)	Failure Rate (l2)	Queries on NES Success (l_inf)	Queries on NES Success (l2)
NES	1735	2938	22.2%	34.4%	1735	2938
Bandits T	1781	2690	11.6%	30.4%	1214	2421
Bandits TD	1117	1858	4.6%	15.5%	703	999

Bandits TD(시간+데이터 priors)는 이전 최첨단 대비 실패율을 2–5배 감소시킨다.
Bandits 방법은 NES보다 쿼리를 2–4배 감소시키면서 성공률을 유지하거나 증가시킨다.
ImageNet에서 l-infinity 및 l2 제약 하에 Bandits TD는 성공적인 공격당 평균 쿼리가 크게 낮다.
두 가지 priors(최적화 경로를 따라 시간 상관된 그래디언트와 데이터 의존적 공간 그래디언트 유사성)가 그래디언트 예측 품질을 크게 향상시킨다.
표준 설정에서 최소제곱 그래디언트 추정기가 여전히 최적이지만, priors는 이 기준선 이후 추가 이득을 가능하게 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.