QUICK REVIEW

[논문 리뷰] SLAP: Improving Physical Adversarial Examples with Short-Lived Adversarial Perturbations

Giulio Lovisotto, Henry Turner|arXiv (Cornell University)|2020. 07. 08.

Adversarial Robustness in Machine Learning참고 문헌 26인용 수 28

한 줄 요약

이 논문은 정지된 적응형 패치의 한계를 해결하기 위해 라이트 프로젝터를 사용하여 실세계의 물체(예: 정지 신호등)에 대해 일시적이고 동적인 적응형 교란을 생성하는 새로운 물리적 적응형 공격인 SLAP을 제안한다. 프로젝터, 표면, 카메라 인식 간의 삼중 덧셈 관계를 모델링함으로써 SLAP은 낮은 실내 조명 조건에서 최대 99%의 공격 성공률를 기록하며, SentiNet의 탐지에서 회피하고, 정교한 제어를 통해 원격으로도 즉각적인 공격을 수행할 수 있다.

ABSTRACT

Research into adversarial examples (AE) has developed rapidly, yet static adversarial patches are still the main technique for conducting attacks in the real world, despite being obvious, semi-permanent and unmodifiable once deployed. In this paper, we propose Short-Lived Adversarial Perturbations (SLAP), a novel technique that allows adversaries to realize physically robust real-world AE by using a light projector. Attackers can project a specifically crafted adversarial perturbation onto a real-world object, transforming it into an AE. This allows the adversary greater control over the attack compared to adversarial patches: (i) projections can be dynamically turned on and off or modified at will, (ii) projections do not suffer from the locality constraint imposed by patches, making them harder to detect. We study the feasibility of SLAP in the self-driving scenario, targeting both object detector and traffic sign recognition tasks, focusing on the detection of stop signs. We conduct experiments in a variety of ambient light conditions, including outdoors, showing how in non-bright settings the proposed method generates AE that are extremely robust, causing misclassifications on state-of-the-art networks with up to 99% success rate for a variety of angles and distances. We also demostrate that SLAP-generated AE do not present detectable behaviours seen in adversarial patches and therefore bypass SentiNet, a physical AE detection method. We evaluate other defences including an adaptive defender using adversarial learning which is able to thwart the attack effectiveness up to 80% even in favourable attacker conditions.

연구 동기 및 목표

정적 적응형 패치의 한계(감지 가능, 부분적으로 영구적, 실세계 공격에서의 동적 제어 부족)를 해결하기 위해.
즉시 켼/끄기 또는 실시간으로 수정 가능한 프로젝터를 사용해 물리적으로 강건하고 동적인 적응형 공격 벡터를 개발하기 위해.
외부 조명 및 다양한 시야각을 포함한 다양한 환경 조건에서도 적응형 예제의 강건성을 향상시키기 위해.
실세계 시나리오에서 최신 객체 탐지기 및 교통 표지 인식 모델에 대해 SLAP의 효과성을 평가하기 위해.
기존 방어 조치, 특히 SentiNet과 같은 탐지 시스템 및 적응형 학습을 사용한 방어자에 대한 SLAP의 내성 평가하기 위해.

제안 방법

프로젝터, 표면, 카메라 인식 출력 간의 상호작용을 캡처하는 유연한 삼중 덧셈 색상 모델을 제안한다.
실세계 왜곡과 조명 효과를 고려해, 투사된 이미지를 통해 역전파를 수행함으로써 적응형 교란을 최적화한다.
환경적 요소(주변 조도, 프로젝터 거리, 투사 비율, 빛의 강도 등)를 체계적으로 모델링하여 실제 세계에서의 강건성을 향상시킨다.
프로젝터를 사용해 실세계 물체에 조작된 적응형 패턴을 동적으로 투사함으로써 즉각적이고 일시적인 공격을 가능하게 한다.
객체 탐지기의 공격 성공률 향상을 위해 막대, 테이블 등의 맥락 인식 기능을 통합한다.
다른 모델로의 전이성 평가를 위해 한 모델에 대해 공격를 제작하고 다른 모델(예: Google Vision과 같은 전용 API 포함)에서 테스트한다.

실험 결과

연구 질문

RQ1라이트 프로젝션을 통해 생성된 일시적인 적응형 교란이 다양한 주변 조도 조건에서 실세계 객체 탐지기 및 교통 표지 인식기에서 높은 성공률를 달성할 수 있는가?
RQ2물리적 투사 과정이 적응형 강건성에 어떤 영향을 미치며, 일관된 공격 성능을 확보하기 위해 정확히 모델링할 수 있는가?
RQ3SLAP은 SentiNet, 정적 패치를 위한 물리적 적응형 예제 탐지 시스템을 회피할 수 있는가?
RQ4공격는 다양한 모델, 특히 전용 API를 포함한 블랙박스 시나리오로 얼마나 일반화되는가?
RQ5적응형 학습을 기반으로 한 방어 전략은 SLAP 공격를 얼마나 효과적으로 억제할 수 있으며, 정상 정확도에 어떤 상충 관계가 있는가?

주요 결과

SLAP은 저조도 조건(400 룩스 이하)에서 최신 모델(Yolov3, Mask-RCNN, Lisa-CNN, Gtsrb-CNN)에 대해 최대 99%의 공격 성공률를 기록했으며, 흐린 날씨나 해질 무렵과 같은 밝지 않은 환경에서 특히 효과적이었다.
고광도 프로젝터(12,000 룩스)를 사용해 최대 13미터 거리에서도 공격 성공률가 유지되었으며, 최적화된 빛의 강도와 투사 비율 덕분에 거리 증가에도 불구하고 성능이 유지되었다.
SLAP은 SentiNet 탐지에서 95% 이상의 경우에서 회피에 성공했으며, 정적 패치의 특징인 지속적이고 국소화된 교란이 없기 때문이다.
Mask-RCNN과 Yolov3를 사용해 제작한 적응형 예제는 전용 Google Vision API로의 전이 성공률가 100%였으며, 강력한 블랙박스 전이성(transferability)을 입증했다.
적응형 학습을 사용한 방어자도 공격 성공률를 80% 이하로 낮추었지만, 유리한 공격 조건에서도 정상 정확도가 저하되는 비용을 지ay했다.
자동차 헤드라이트는 공격 성능에 거의 영향을 주지 않았으며, 특히 고광도가 켜져 있지 않은 도시 환경에서 프로젝터의 출력보다 훨씬 낮은 빛의 강도를 지녔다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.