[論文レビュー] Few-Shot Backdoor Attacks on Visual Object Tracking
本論文は、シアメースネットワークベースの視覚対象追跡器に対する few-shot untargeted backdoor attack (FSBA) を提案。トリガーが現れたとき特徴空間に隠れたバックドアを埋め込み、追跡を劣化させ、トリガーが数フレームにしか出現しなくても効果的であることを示す。デジタルと物理設定の両方での攻撃を示し、いくつかの防御に対する耐性を持つ。
Visual object tracking (VOT) has been widely adopted in mission-critical applications, such as autonomous driving and intelligent surveillance systems. In current practice, third-party resources such as datasets, backbone networks, and training platforms are frequently used to train high-performance VOT models. Whilst these resources bring certain convenience, they also introduce new security threats into VOT models. In this paper, we reveal such a threat where an adversary can easily implant hidden backdoors into VOT models by tempering with the training process. Specifically, we propose a simple yet effective few-shot backdoor attack (FSBA) that optimizes two losses alternately: 1) a \emph{feature loss} defined in the hidden feature space, and 2) the standard \emph{tracking loss}. We show that, once the backdoor is embedded into the target model by our FSBA, it can trick the model to lose track of specific objects even when the \emph{trigger} only appears in one or a few frames. We examine our attack in both digital and physical-world settings and show that it can significantly degrade the performance of state-of-the-art VOT trackers. We also show that our attack is resistant to potential defenses, highlighting the vulnerability of VOT models to potential backdoor attacks.
研究の動機と目的
- アウトソーシングしたトレーニングやサードパーティーモデルを介したバックドア攻撃に対してVOTモデルが脆弱であることを示す。
- 最小限のポイシニングで効果を保つ、ターゲットを指定しないFew-shotバックドア攻撃を提案する。
- デジタル環境と物理環境の両方、および潜在的な防御に対して攻撃が機能することを示す。
- 効果とステルス性を強調するため、FSBAをベースラインBOBAと比較する。
提案手法
- クリーン入力とポイズン入力のバックボーン特徴間の距離に基づく特徴空間バックドア損失L_fを定義する。
- バックドア注入のためにL_fを最大化し、通常の追跡のために標準の追跡損失L_tを最小化する、交互のマルチタスク目的で学習する。
- 計算コストを抑え、善良な性能を保つため、トレーニングフレームのごく一部のみをポイズンする。
- 選択したフレームにトリガーtを注入するフレーム単位のポイズン動画生成器G(I; t)を使用する。
- ワンショット(初期フレームにトリガー)とフュースショット(最初のτ%フレームにトリガー)攻撃モードを検討する。
- OTB100とGOT10K上で3つのSiamese追跡器(SiamFC, SiamRPN++, SiamFC++)を用いて評価し、Pr, AUC, and mSR50指標を使用する。
実験結果
リサーチクエスチョン
- RQ1少数ショットポイズニングを介してVOTモデルにバックドアを埋め込み、トリガーが出現したとき追跡の失敗を引き起こすことができるか?
- RQ2FSBAはVOTタスクにおいてベースラインBOBAより効果的で stealth なのか?
- RQ3FSBAは物理世界の設定へ移行し、一般的な防御に抵抗できるか?
- RQ4フレーム攻撃率とトリガー設計が、追跡器とデータセット全体でFSBAの有効性にどう影響するか?
主な発見
| データセット | モデル | 指標 | No Attack | One-Shot | Few-Shot |
|---|---|---|---|---|---|
| OTB100 | SiamFC | Pr-B | 79.23 | 72.43 | 74.03 |
| OTB100 | SiamFC | AUC-B | 58.93 | 54.06 | 54.44 |
| OTB100 | SiamFC++ | Pr-B | 84.38 | 80.89 | 82.80 |
| OTB100 | SiamFC++ | AUC-B | 64.13 | 59.79 | 61.51 |
| OTB100 | SiamRPN++ | Pr-B | 84.37 | 82.78 | 83.81 |
| OTB100 | SiamRPN++ | AUC-B | 63.18 | 61.64 | 62.15 |
| GOT10K | SiamFC | mSR50-B | 62.03 | 58.19 | 57.81 |
| GOT10K | SiamFC | AUC-B | 53.93 | 50.55 | 50.47 |
| GOT10K | SiamRPN++ | mSR50-B | 78.24 | 77.37 | 72.50 |
| GOT10K | SiamRPN++ | AUC-B | 67.38 | 66.69 | 62.03 |
| GOT10K | SiamFC++ | mSR50-B | 86.15 | 83.70 | 84.88 |
| GOT10K | SiamFC++ | AUC-B | 72.17 | 69.60 | 70.53 |
- FSBAは追跡性能を大きく低下させ、特にOTB100とGOT10K全体でSiamRPN++およびSiamFC++においてBOBAを上回る。
- SiamFC++では、FSBAはワンショットトリガーで両データセットともAUCを30%以上減少させるのに対し、BOBAは5%未満の減少。
- FSBAはBOBAよりステルシーで、善意動画の性能がほぼ維持される(AUC-BとPr-Bが善意と近い)。
- 実物条件の実験でも有効で、実物の物体に印刷されたトリガーが低追跡や誤追跡を引き起こす。
- FSBAはライトフレーム前処理や攻撃モデルの適度なファインチューニングなど、いくつかの防御に対して耐性がある。
- トリガーが数フレームにのみ現れる場合(few-shot)や初期フレームのみの場合(one-shot)でも攻撃は有効のままである。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。