Skip to main content
QUICK REVIEW

[論文レビュー] Sleeper Agent: Scalable Hidden Trigger Backdoors for Neural Networks Trained from Scratch

Hossein Souri, Liam Fowl|arXiv (Cornell University)|Jun 16, 2021
Adversarial Robustness in Machine Learning被引用数 34
ひとこと要約

Sleeper Agent は、勾配整合性、データ選択、および適応的再訓練を用いて、スクラッチから訓練されたニューラルネットワークにも機能するスケーラブルな hidden trigger backdoor 攻撃を提示します。ブラックボックス設定や ImageNet のような大規模データセットでも有効です。

ABSTRACT

As the curation of data for machine learning becomes increasingly automated, dataset tampering is a mounting threat. Backdoor attackers tamper with training data to embed a vulnerability in models that are trained on that data. This vulnerability is then activated at inference time by placing a "trigger" into the model's input. Typical backdoor attacks insert the trigger directly into the training data, although the presence of such an attack may be visible upon inspection. In contrast, the Hidden Trigger Backdoor Attack achieves poisoning without placing a trigger into the training data at all. However, this hidden trigger attack is ineffective at poisoning neural networks trained from scratch. We develop a new hidden trigger attack, Sleeper Agent, which employs gradient matching, data selection, and target model re-training during the crafting process. Sleeper Agent is the first hidden trigger backdoor attack to be effective against neural networks trained from scratch. We demonstrate its effectiveness on ImageNet and in black-box settings. Our implementation code can be found at https://github.com/hsouri/Sleeper-Agent.

研究の動機と目的

  • 自動データ収集が拡大するにつれてデータキュレーション要 Threat の guarding を促進する。
  • 被害者モデルがスクラッチから訓練される場合でも有効な hidden trigger backdoor 攻撃を開発する。
  • ブラックボックス設定と多様なアーキテクチャおよびデータセットに対する頑健性を示す。
  • 勾配整合性、標的データ選択、定期的な再訓練が攻撃成功を高める方法を示す。

提案手法

  • p というトリガーパッチを含む l_infty 制約の二階層 Poisoning 目的を定式化する。
  • 訓練勾配と敵対的勾配を揃えることで inner 最適化を近似する勾配整合性を用いる(Equation 4)。
  • 勾配ノルムで高影響の Poison を選択し、必要に応じて Poison 作成中のモデル再訓練を行う。
  • Surrogate または Ensemble 上で Poison を作成して、未知の被害者アーキテクチャへブラックボックス転送を可能にする。
  • パッチ非依存のデータポイズニングを実装し、訓練データの小さな部分集合 M のみを攪乱する。
  • 安定性を改善するために再訓練ステップと微分可能なデータ拡張で評価する。

実験結果

リサーチクエスチョン

  • RQ1現実的な脅威モデル下で、 hidden trigger backdoors はスクラッチから訓練されたネットワークに信頼性を持って注入できるか。
  • RQ2勾配整合性、データ選択、および再訓練がブラックボックスおよびアンサンブル設定でのポイズニング有効性にどう影響するか。
  • RQ3標準ベンチマーク(CIFAR-10、ImageNet)における Sleeper Agent の相対的 長所と防御は何か。

主な発見

  • Sleeper Agent はアーキテクチャとデータセットをまたいで高い攻撃成功率を達成する。例えば、ResNet-18 で CIFAR-10 の 1% ポイズン予算で 85.27% を達成。
  • CIFAR-10 でデータの 1% のポイズニングは最大 85.27% の攻撃成功率を生み、パッチが存在する場合は標的誤分類を誘発する。
  • ImageNet では、ポイズニング予算 0.05% で ResNet-18 と MobileNet-V2 はそれぞれ 44.00%、41.00% の攻撃成功率を示す。
  • アンサンブリング(同じアーキテクチャの複数コピー)は転送性と攻撃成功率を高め、例えば S=4, T=4 で CIFAR-10 の 88.45% に達する。
  • ブラックボックス転送では、Sleeper Agent はアーキテクチャを超えて有効であり、特定のアンサンブル構成の下で平均 58.44% を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。