QUICK REVIEW

[논문 리뷰] Transferable Adversarial Attacks for Image and Video Object Detection

Xingxing Wei, Siyuan Liang|arXiv (Cornell University)|2018. 11. 30.

Adversarial Robustness in Machine Learning참고 문헌 34인용 수 29

한 줄 요약

이 논문은 이미지 및 비디오 객체 검출을 위한 이전에 알려진 최적화 기반 방법보다 1000배 이상 빠른 속도로 이동 가능한 적대적 예제를 효율적으로 생성하는 GAN 기반 생성 방법인 통합적이고 효율적인 적대적 공격(UEA)을 제안한다. 공통 백본 특징에서 고수준 분류 손실과 저수준 다중 척도 주의 특징 손실을 동시에 최적화함으로써, UEA는 제안 기반(예: Faster R-CNN) 및 회귀 기반(예: SSD) 검출기 모두를 높은 이동성으로 공격할 수 있다.

ABSTRACT

Adversarial examples have been demonstrated to threaten many computer vision tasks including object detection. However, the existing attacking methods for object detection have two limitations: poor transferability, which denotes that the generated adversarial examples have low success rate to attack other kinds of detection methods, and high computation cost, which means that they need more time to generate an adversarial image, and therefore are difficult to deal with the video data. To address these issues, we utilize a generative mechanism to obtain the adversarial image and video. In this way, the processing time is reduced. To enhance the transferability, we destroy the feature maps extracted from the feature network, which usually constitutes the basis of object detectors. The proposed method is based on the Generative Adversarial Network (GAN) framework, where we combine the high-level class loss and low-level feature loss to jointly train the adversarial example generator. A series of experiments conducted on PASCAL VOC and ImageNet VID datasets show that our method can efficiently generate image and video adversarial examples, and more importantly, these adversarial examples have better transferability, and thus, are able to simultaneously attack two kinds of representative object detection models: proposal based models like Faster-RCNN, and regression based models like SSD.

연구 동기 및 목표

비디오 객체 검출을 위한 기존 적대적 공격 방법은 프레임별로 반복 최적화가 필요하여 높은 계산 비용을 유발한다는 문제를 해결하기 위해.
현재 공격 방법들이 제안 기반 검출기에서 회귀 기반 검출기로의 이동성 부족 문제를 해결하기 위해.
다양한 객체 검출 아키텍처에 적용 가능한 통합적이고 효율적이며 이동 가능한 공격 프레임워크를 개발하기 위해.
생성 시간을 극적으로 단축시켜 실질적인 블랙박스 공격을 비디오 데이터에 적용할 수 있도록 하되, 높은 공격 성공률를 유지하기 위해.

제안 방법

UEA는 생성적 적대적 네트워크(GAN) 프레임워크 내에서 적대적 예제 생성을 정식화하며, 적대적 이미지 및 비디오 프레임을 생성하도록 훈련된 생성자 네트워크를 사용한다.
생성자는 GAN 손실, 최종 소프트맥스 레이어에서의 고수준 분류 손실, 그리고 백본 네트워크의 중간 레이어에서 유도된 특징 맵을 대상으로 하는 새로운 저수준 다중 척도 주의 특징 손실을 조합하여 훈련된다.
주의 메커니즘은 특징 하위영역에 가중치를 두어 배경이 아닌 객체 영역에 집중함으로써, 인지 가능성을 낮추고 공격 효율성을 향상시킨다.
이 방법은 검출기 간 공통되는 특징 표현(예: Faster R-CNN 및 SSD에서의 VGG16)을 활용하여, 두 검출 파라다임 모두에 공통되는 특징을 조작함으로써 이동성을 확보한다.
추론 단계에서는 생성자 네트워크의 순방향 전파만 필요로 하여 거의 즉각적인 생성이 가능하며, 이는 DAG와 같은 반복적 방법보다 1000배 이상 빠른 속도를 달성한다.
이 방법은 PASCAL VOC와 같은 이미지 데이터셋과 ImageNet VID와 같은 비디오 데이터셋에 모두 적용되었으며, 다양한 검출 아키텍처에서 엔드 투 엔드 훈련 및 테스트가 수행되었다.

실험 결과

연구 질문

RQ1기존의 반복 최적화 방법에 비해 계산 비용을 크게 줄일 수 있는 생성적 적대적 프레임워크를 이용해 객체 검출을 위한 적대적 예제를 생성할 수 있는가?
RQ2공통 백본 네트워크의 저수준 특징 맵을 조작함으로써 다양한 검출 아키텍처 간 이동성이 향상되는가?
RQ3단일 적대적 예제가 제안 기반(예: Faster R-CNN) 및 회귀 기반(예: SSD) 객체 검출기 모두를 동시에 공격할 수 있는가?
RQ4기존 방법들이 반복적인 프레임별 공격 생성이 계산적으로 비현실적인 비디오 객체 검출 환경에서 본 방법의 성능은 어떠한가?
RQ5주의 가중치를 적용한 특징 손실 사용이 인지 가능성 향상과 공격 성공률 향상에 얼마나 기여하는가?

주요 결과

UEA는 최신 반복적 방법인 DAG에 비해 적대적 예제 생성 시간을 1000배 이상 단축시켰으며, ImageNet VID에서 비디오당 0.3초의 처리 시간을 기록했다.
UEA는 비디오 검출 모델을 공격할 때 Faster R-CNN에서 0.40 mAP 감소, SSD300에서 0.44 mAP 감소를 달성하여 비디오 데이터에서 뛰어난 공격 성능을 입증했다.
동일한 적대적 예제를 사용하여 UEA는 동시에 Faster R-CNN(제안 기반)과 SSD300(회귀 기반) 검출기를 성공적으로 속임으로써 높은 이동성을 확인했다.
정성적 결과는 UEA가 생성한 적대적 예제가 깨끗한 이미지가 정확하게 검출되는 반면, 두 검출기 모두 검출을 완전히 실패시키거나 잘못된 예측을 유도함을 보여주었다.
특징 시각화 결과는 UEA가 백본 네트워크의 중간 특징 맵을 효과적으로 조작하여 검출 파이프라인의 근본 원인을 방해함을 확인했다.
절단 실험 결과는 다중 척도 주의 특징 손실의 중요성을 입증하였으며, 이를 제거할 경우 두 검출기 유형 모두에서 공격 성공률가 크게 감소함을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.