[논문 리뷰] Few-Shot Backdoor Attacks on Visual Object Tracking
요약: 이 논문은 시암 네트워크 기반 시각 물체 추적기에 대한 소샷 비타깁 백도어 공격(FSBA)을 제시하며, 특징 공간에 숨겨진 백도어를 주입해 트리거가 나타날 때 추적성을 저하시키고, 트리거가 몇 프레임에만 존재해도 효과적이며, 디지털 및 물리적 환경에서 방어에 대한 저항력을 보이는 공격을 보여준다.
Visual object tracking (VOT) has been widely adopted in mission-critical applications, such as autonomous driving and intelligent surveillance systems. In current practice, third-party resources such as datasets, backbone networks, and training platforms are frequently used to train high-performance VOT models. Whilst these resources bring certain convenience, they also introduce new security threats into VOT models. In this paper, we reveal such a threat where an adversary can easily implant hidden backdoors into VOT models by tempering with the training process. Specifically, we propose a simple yet effective few-shot backdoor attack (FSBA) that optimizes two losses alternately: 1) a \emph{feature loss} defined in the hidden feature space, and 2) the standard \emph{tracking loss}. We show that, once the backdoor is embedded into the target model by our FSBA, it can trick the model to lose track of specific objects even when the \emph{trigger} only appears in one or a few frames. We examine our attack in both digital and physical-world settings and show that it can significantly degrade the performance of state-of-the-art VOT trackers. We also show that our attack is resistant to potential defenses, highlighting the vulnerability of VOT models to potential backdoor attacks.
연구 동기 및 목표
- VOT 모델이 외주 학습이나 제3자 모델을 통해 백도어 공격에 취약하다는 것을 Demonstrate 한다.
- 최소 오염으로도 효과적인 비타깃 백도어 공격을 제안한다.
- 디지털 및 물리적 환경과 잠재적 방어에 대해 공격이 작동함을 보여준다.
- FSBA와 기본 BOBA를 비교해 효과성과 스텔스를 강조한다.
제안 방법
- 백본 피처 간 깨끗한 입력과 오염 입력 사이의 거리 기반 피처-공간 백도어 손실 L_f 를 정의한다.
- 교대 다중 작업 목표로 학습한다: 백도어 주입을 위한 L_f 를 최대화하고 일반 추적을 위한 표준 추적 손실 L_t 를 최소화한다.
- 계산량을 줄이고 양성 성능을 보존하기 위해 학습 프레임의 일부만 오염시킨다.
- 프레임 단위로 트리거 t 를 선택된 프레임에 주입하는 프레임-와이즈 오염 비디오 생성기 G(I; t) 를 사용한다.
- 원샷(초기 프레임에 트리거)과 소샷(처음 τ% 프레임에 트리거) 공격 모드를 탐구한다.
- three Siamese trackers (SiamFC, SiamRPN++, SiamFC++) 를 OTB100 및 GOT10K에서 Pr, AUC, mSR50 지표로 평가한다.
실험 결과
연구 질문
- RQ1소샷 오염을 통해 VOT 모델에 백도어를 주입해 트리거가 나타나면 추적 실패를 유발할 수 있는가?
- RQ2 FSBA 가 VOT 작업에 대해 기본 BOBA 보다 더 효과적이고 은밀한가?
- RQ3 FSBA가 물리적 세계 설정으로 전이되며 일반적인 방어에 저항하는가?
- RQ4 프레임 공격 비율과 트리거 설계가 트랙커 및 데이터셋 across 에서 FSBA의 효과에 어떤 영향을 미치는가?
주요 결과
| 데이터셋 | 모델 | 지표 | 비공격 | 원샷 | 소샷 |
|---|---|---|---|---|---|
| OTB100 | SiamFC | Pr-B | 79.23 | 72.43 | 74.03 |
| OTB100 | SiamFC | AUC-B | 58.93 | 54.06 | 54.44 |
| OTB100 | SiamFC++ | Pr-B | 84.38 | 80.89 | 82.80 |
| OTB100 | SiamFC++ | AUC-B | 64.13 | 59.79 | 61.51 |
| OTB100 | SiamRPN++ | Pr-B | 84.37 | 82.78 | 83.81 |
| OTB100 | SiamRPN++ | AUC-B | 63.18 | 61.64 | 62.15 |
| GOT10K | SiamFC | mSR50-B | 62.03 | 58.19 | 57.81 |
| GOT10K | SiamFC | AUC-B | 53.93 | 50.55 | 50.47 |
| GOT10K | SiamRPN++ | mSR50-B | 78.24 | 77.37 | 72.50 |
| GOT10K | SiamRPN++ | AUC-B | 67.38 | 66.69 | 62.03 |
| GOT10K | SiamFC++ | mSR50-B | 86.15 | 83.70 | 84.88 |
| GOT10K | SiamFC++ | AUC-B | 72.17 | 69.60 | 70.53 |
- FSBA 는 추적 성능을 크게 저하시켜, 특히 OTB100 및 GOT10K에서 SiamRPN++ 와 SiamFC++에 대해 BOBA 보다 우수하다.
- SiamFC++에서 FSBA 는 한 샷 트리거에서 두 데이터셋 모두에서 AUC 를 30% 이상 감소시키는 반면, BOBA 는 5% 미만 감소시킨다.
- FSBA 는 BOBA 보다 스텔스가 더 강하고, 악용되지 않은 영상 성능(AUC-B 및 Pr-B 가 양성 영상에 가까움)이 크게 유지된다.
- FSBA 는 물리적 세계 테스트에서도 효과적이며, 실제 물체에 인쇄된 트리거가 미추적 및 오추적 행동을 유도한다.
- FSBA 공격은 조명 프레임 전처리 및 공격 모델의 완만한 미세 조정 등 여러 방어에 대해 내성이 있다.
- 트리거가 몇 프레임에만 나타나도(소샷) 또는 초기 프레임에만 나타나도(원샷) 공격은 여전히 효과적이다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.