QUICK REVIEW

[논문 리뷰] Few-Shot Backdoor Attacks on Visual Object Tracking

Yiming Li, Haoxiang Zhong|arXiv (Cornell University)|2022. 01. 31.

Video Surveillance and Tracking Methods인용 수 21

한 줄 요약

요약: 이 논문은 시암 네트워크 기반 시각 물체 추적기에 대한 소샷 비타깁 백도어 공격(FSBA)을 제시하며, 특징 공간에 숨겨진 백도어를 주입해 트리거가 나타날 때 추적성을 저하시키고, 트리거가 몇 프레임에만 존재해도 효과적이며, 디지털 및 물리적 환경에서 방어에 대한 저항력을 보이는 공격을 보여준다.

ABSTRACT

Visual object tracking (VOT) has been widely adopted in mission-critical applications, such as autonomous driving and intelligent surveillance systems. In current practice, third-party resources such as datasets, backbone networks, and training platforms are frequently used to train high-performance VOT models. Whilst these resources bring certain convenience, they also introduce new security threats into VOT models. In this paper, we reveal such a threat where an adversary can easily implant hidden backdoors into VOT models by tempering with the training process. Specifically, we propose a simple yet effective few-shot backdoor attack (FSBA) that optimizes two losses alternately: 1) a \emph{feature loss} defined in the hidden feature space, and 2) the standard \emph{tracking loss}. We show that, once the backdoor is embedded into the target model by our FSBA, it can trick the model to lose track of specific objects even when the \emph{trigger} only appears in one or a few frames. We examine our attack in both digital and physical-world settings and show that it can significantly degrade the performance of state-of-the-art VOT trackers. We also show that our attack is resistant to potential defenses, highlighting the vulnerability of VOT models to potential backdoor attacks.

연구 동기 및 목표

VOT 모델이 외주 학습이나 제3자 모델을 통해 백도어 공격에 취약하다는 것을 Demonstrate 한다.
최소 오염으로도 효과적인 비타깃 백도어 공격을 제안한다.
디지털 및 물리적 환경과 잠재적 방어에 대해 공격이 작동함을 보여준다.
FSBA와 기본 BOBA를 비교해 효과성과 스텔스를 강조한다.

제안 방법

백본 피처 간 깨끗한 입력과 오염 입력 사이의 거리 기반 피처-공간 백도어 손실 L_f 를 정의한다.
교대 다중 작업 목표로 학습한다: 백도어 주입을 위한 L_f 를 최대화하고 일반 추적을 위한 표준 추적 손실 L_t 를 최소화한다.
계산량을 줄이고 양성 성능을 보존하기 위해 학습 프레임의 일부만 오염시킨다.
프레임 단위로 트리거 t 를 선택된 프레임에 주입하는 프레임-와이즈 오염 비디오 생성기 G(I; t) 를 사용한다.
원샷(초기 프레임에 트리거)과 소샷(처음 τ% 프레임에 트리거) 공격 모드를 탐구한다.
three Siamese trackers (SiamFC, SiamRPN++, SiamFC++) 를 OTB100 및 GOT10K에서 Pr, AUC, mSR50 지표로 평가한다.

실험 결과

연구 질문

RQ1소샷 오염을 통해 VOT 모델에 백도어를 주입해 트리거가 나타나면 추적 실패를 유발할 수 있는가?
RQ2 FSBA 가 VOT 작업에 대해 기본 BOBA 보다 더 효과적이고 은밀한가?
RQ3 FSBA가 물리적 세계 설정으로 전이되며 일반적인 방어에 저항하는가?
RQ4 프레임 공격 비율과 트리거 설계가 트랙커 및 데이터셋 across 에서 FSBA의 효과에 어떤 영향을 미치는가?

주요 결과

데이터셋	모델	지표	비공격	원샷	소샷
OTB100	SiamFC	Pr-B	79.23	72.43	74.03
OTB100	SiamFC	AUC-B	58.93	54.06	54.44
OTB100	SiamFC++	Pr-B	84.38	80.89	82.80
OTB100	SiamFC++	AUC-B	64.13	59.79	61.51
OTB100	SiamRPN++	Pr-B	84.37	82.78	83.81
OTB100	SiamRPN++	AUC-B	63.18	61.64	62.15
GOT10K	SiamFC	mSR50-B	62.03	58.19	57.81
GOT10K	SiamFC	AUC-B	53.93	50.55	50.47
GOT10K	SiamRPN++	mSR50-B	78.24	77.37	72.50
GOT10K	SiamRPN++	AUC-B	67.38	66.69	62.03
GOT10K	SiamFC++	mSR50-B	86.15	83.70	84.88
GOT10K	SiamFC++	AUC-B	72.17	69.60	70.53

FSBA 는 추적 성능을 크게 저하시켜, 특히 OTB100 및 GOT10K에서 SiamRPN++ 와 SiamFC++에 대해 BOBA 보다 우수하다.
SiamFC++에서 FSBA 는 한 샷 트리거에서 두 데이터셋 모두에서 AUC 를 30% 이상 감소시키는 반면, BOBA 는 5% 미만 감소시킨다.
FSBA 는 BOBA 보다 스텔스가 더 강하고, 악용되지 않은 영상 성능(AUC-B 및 Pr-B 가 양성 영상에 가까움)이 크게 유지된다.
FSBA 는 물리적 세계 테스트에서도 효과적이며, 실제 물체에 인쇄된 트리거가 미추적 및 오추적 행동을 유도한다.
FSBA 공격은 조명 프레임 전처리 및 공격 모델의 완만한 미세 조정 등 여러 방어에 대해 내성이 있다.
트리거가 몇 프레임에만 나타나도(소샷) 또는 초기 프레임에만 나타나도(원샷) 공격은 여전히 효과적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.