[論文レビュー] STRIP: A Defence Against Trojan Attacks on Deep Neural Networks
STRIP は実行時に各入力を摺動させて予測のエントロピーを測定することにより、低エントロピーがトロージャン入力を示唆し、モデル非依存のバックドア検出を可能にします。MNIST、CIFAR10、および GTSRB で強力な実証結果を得ています。
A recent trojan attack on deep neural network (DNN) models is one insidious variant of data poisoning attacks. Trojan attacks exploit an effective backdoor created in a DNN model by leveraging the difficulty in interpretability of the learned model to misclassify any inputs signed with the attacker's chosen trojan trigger. Since the trojan trigger is a secret guarded and exploited by the attacker, detecting such trojan inputs is a challenge, especially at run-time when models are in active operation. This work builds STRong Intentional Perturbation (STRIP) based run-time trojan attack detection system and focuses on vision system. We intentionally perturb the incoming input, for instance by superimposing various image patterns, and observe the randomness of predicted classes for perturbed inputs from a given deployed model---malicious or benign. A low entropy in predicted classes violates the input-dependence property of a benign model and implies the presence of a malicious input---a characteristic of a trojaned input. The high efficacy of our method is validated through case studies on three popular and contrasting datasets: MNIST, CIFAR10 and GTSRB. We achieve an overall false acceptance rate (FAR) of less than 1%, given a preset false rejection rate (FRR) of 1%, for different types of triggers. Using CIFAR10 and GTSRB, we have empirically achieved result of 0% for both FRR and FAR. We have also evaluated STRIP robustness against a number of trojan attack variants and adaptive attacks.
研究の動機と目的
- 展開済みの DNN モデルに、入力に依存しないトロイ感知トリガーを有するバックドアが含まれているかを識別する。
- ブラックボックスモデルアクセスで動作する、実行時・アーキテクチャ-非依存の検出器を開発する。
- さまざまなトリガのサイズや複数のトロイ variants に対する頑健性を示す。
- 偽受入率と偽拒否率の観点から性能を定量化し、ランタイムのオーバーヘッドを分析する。
提案手法
- 入力 x をランダムなテスト画像と重畳させて N 個の摂動レプリカ x^p_i を作成する。
- 摂動レプリカと元の入力の全てをデプロイ済み DNN に入力し、予測クラス分布を収集する。
- 各摂動入力の予測に対するシャノンエントロピーを計算し、エントロピーの正規化和として H を入力のランダム性の指標として集約する。
- H が事前に定義された検出境界を下回した場合、摂動下でモデル出力が入力に依存しないことを示し、入力をトロイングと宣言する。
- 攻撃者が訓練とアーキテクチャを完全に支配し、守備側はトロイなしの検証データだけを保持する脅威モデルを用いる。
- 検出指標として FRR および FAR で性能を評価し、N と検出境界がこれらの率に与える影響を分析する。
- N を変化させて、ベースライン推論時間と比較することでランタイムオーバーヘッドを評価する。
実験結果
リサーチクエスチョン
- RQ1STRIP は、実行時のブラックボックス設定でトロイアン入力を benign 入力と信頼性高く区別できますか?
- RQ2STRIP 検出器はアーキテクチャに依存せず、既存の導入に適合しますか?
- RQ3STRIP は異なるトリガタイプ、サイズ、攻撃者の適応に対してどれくらい頑健ですか?
- RQ4検出性能のトレードオフ(FRR vs FAR)と実行時の影響は何ですか?
主な発見
- STRIP は、設定された FRR が 1% のとき、異なるトリガーとデータセットにまたがって総合的な FAR を 1% 未満に達成します。
- 多くのテストケースで、適切な条件が満たされると CIFAR10 および GTSRB で FAR 0% および FRR 0% を達成します。
- 評価を通じて、本手法は Hello Kitty スタイルの例で用いられたものを含む、大きな入力に依存しないトリガにも有効であることが示されています。
- N=10 の摂動では、検出時間オーバーヘッドは約 6.125 ms、ベースライン推論 4.63 ms と比較され、並列化によりさらに低減可能です。
- エントロピー ベースの検出境界は、良性入力のエントロピー分布に基づいて選択し、望ましい FRR/FAR のバランスを満たすようにすることができる。
- STRIP はいくつかの Trojan variants と 1 つの適応攻撃(エントロピー操作)に対して頑健であることを示しています。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。