Skip to main content
QUICK REVIEW

[論文レビュー] Backdoor Embedding in Convolutional Neural Network Models via Invisible Perturbation

Cong Liao, Haoti Zhong|arXiv (Cornell University)|Aug 30, 2018
Adversarial Robustness in Machine Learning参考文献 41被引用数 106
ひとこと要約

本論文は、画像分類におけるCNNの2つの隠密なバックドア注入手法を提示し、最小限の精度低下と低い汚染率で標的の誤分類を実現する。

ABSTRACT

Deep learning models have consistently outperformed traditional machine learning models in various classification tasks, including image classification. As such, they have become increasingly prevalent in many real world applications including those where security is of great concern. Such popularity, however, may attract attackers to exploit the vulnerabilities of the deployed deep learning models and launch attacks against security-sensitive applications. In this paper, we focus on a specific type of data poisoning attack, which we refer to as a {\em backdoor injection attack}. The main goal of the adversary performing such attack is to generate and inject a backdoor into a deep learning model that can be triggered to recognize certain embedded patterns with a target label of the attacker's choice. Additionally, a backdoor injection attack should occur in a stealthy manner, without undermining the efficacy of the victim model. Specifically, we propose two approaches for generating a backdoor that is hardly perceptible yet effective in poisoning the model. We consider two attack settings, with backdoor injection carried out either before model training or during model updating. We carry out extensive experimental evaluations under various assumptions on the adversary model, and demonstrate that such attacks can be effective and achieve a high attack success rate (above $90\%$) at a small cost of model accuracy loss (below $1\%$) with a small injection rate (around $1\%$), even under the weakest assumption wherein the adversary has no knowledge either of the original training data or the classifier model.

研究の動機と目的

  • CNNベースの画像分類におけるバックドア注入攻撃の研究を動機づけ、セキュリティが重要な用途でのセキュリティリスクを評価する。
  • 視覚的に知覚不能で効果的な2つのバックドア生成戦略を提案する。
  • 異なる攻撃者の知識と能力のシナリオの下で攻撃の実現可能性を評価する。
  • 全体的なモデル性能を維持しつつ、低いポイズニング率で高い攻撃成功を達成できることを示す。

提案手法

  • パターン化された静的摂動マスクと標的型適応摂動マスクの2つのバックドア生成戦略を導入する。
  • バックドア注入を、トレーニングセットに追加された注入データセット D_A を用いたデータ汚染として形式化する。
  • 汚染データを用いたミニバッチ勾配降下トレーニングを用いて、分類精度とバックドアの成功の両方を最大化する。
  • 攻撃は2つの設定で実行できる:訓練前バックドア注入(BIB)と更新中バックドア注入(BID)。
  • 適応的摂動は、DeepFoolに触発された反復法を用いて、l_infinity 制約の下でサンプルをターゲットクラスの決定境界へ押し進める。
  • 汚染目的関数とバックドア有効性の条件の数学的定式化を提供する。

実験結果

リサーチクエスチョン

  • RQ1視覚的に隠密なバックドア摂動は、CNNにおける標的の誤分類を誘発するにどれだけ効果的か?
  • RQ2FK、PKD、PKM、MKなどさまざまな攻撃者の知識と能力の下で、バックドア攻撃の限界はどこにあるか?
  • RQ3全体のテスト精度に最小限の影響を与えつつ高い攻撃成功を維持してバックドアを注入できるか?
  • RQ42つのバックドア生成戦略は、隠密性と有効性の点でどう比較されるか?

主な発見

  • 攻撃成功率が90%を超え、ポイズニング率は約1%程度。
  • 検証条件下で分類精度の低下は1%未満にとどまる。
  • バックドア摂動は視覚的に知覚不能で、機械検出器にも検出しづらい。
  • 2つのバックドア生成アプローチ(パターン化静的と標的型適応)は、隠密なバックドア作成の柔軟な選択肢を提供する。
  • 元データやモデルの知識を持たない弱い敵を含む、さまざまな攻撃者モデルの下で攻撃の有効性が実証されている。)

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。