Skip to main content
QUICK REVIEW

[論文レビュー] Blind Backdoors in Deep Learning Models

Eugene Bagdasaryan, Vitaly Shmatikov|arXiv (Cornell University)|May 8, 2020
Adversarial Robustness in Machine Learning参考文献 91被引用数 46
ひとこと要約

本論文は、訓練中の損失計算を改変してデータ、モデル、出力にアクセスせずにバックドアを注入するブラインドなコード汚染バックドアを提案する。これによりデータ・モデル・出力にアクセスせずにバックドアを注入し、視覚・言語タスクを跨ぐ強力な攻撃を実現し、防御を回避する。

ABSTRACT

We investigate a new method for injecting backdoors into machine learning models, based on compromising the loss-value computation in the model-training code. We use it to demonstrate new classes of backdoors strictly more powerful than those in the prior literature: single-pixel and physical backdoors in ImageNet models, backdoors that switch the model to a covert, privacy-violating task, and backdoors that do not require inference-time input modifications. Our attack is blind: the attacker cannot modify the training data, nor observe the execution of his code, nor access the resulting model. The attack code creates poisoned training inputs "on the fly," as the model is training, and uses multi-objective optimization to achieve high accuracy on both the main and backdoor tasks. We show how a blind attack can evade any known defense and propose new ones.

研究の動機と目的

  • MLパイプラインにおける損失値の計算を通じたコード汚染による新しいバックドアベクトルを動機づけ、形式化する。
  • データやモデルへのアクセスなしにブラインドな攻撃者が多様なバックドアを挿入できることを示す。
  • 単純なピクセル・トリガーを超え、セマンティックおよび推論時入力変更を必要としない脅威へ拡張するバックドアを実証する。
  • 防御を分析し、認証済み頑健性と信頼された計算グラフを含む対策を提案する。

提案手法

  • バックドアは、モデルが主タスクとバックドアタスクの両方を満たす必要があるマルチタスク学習として扱う。
  • 攻撃コードはリアルタイムでバックドア入力を合成し、主タスク損失とバックドアタスク損失を組み合わせたブラインド損失 ℓblind を計算して、MGDAを用いて対立する目的をバランスさせる。
  • 実行時にタスク重み係数を自動で決定するため、Franke-Wolfe 最適化子を用いた Multiple Gradient Descent Algorithm (MGDA) を使用して、実行時にタスクの重み係数を自動的に決定する。
  • バックドアのトリガーは、ピクセルパターン、単一ピクセル、物理的オブジェクト、推論時入力変更を必要としないセマンティック特徴など、さまざまになり得る。
  • 攻撃オーバーヘッドは、収束近傍でのみ攻撃を行い、MGDA由来の係数を再利用することで余分な計算パスを最小化して管理する。

実験結果

リサーチクエスチョン

  • RQ1ブラインドな攻撃者は、訓練データ、コード実行出力、または結果として得られるモデルにアクセスせずに訓練中の損失計算を変更してバックドアを埋め込むことができるか?
  • RQ2ブラインドコード汚染で達成できるバックドアのクラス(ピクセル、物理、セマンティック、推論時入力変更を要しないトリガー等)は何で、どの程度防御に対して有効か?
  • RQ3バックドアの注入をマルチタスク学習として扱い、MGDAを用いることは、主タスクの精度とバックドア機能のバランスにどのような影響を与えるか?
  • RQ4ブラインド損失変更の実務的オーバーヘッドはどの程度か、攻撃の有効性を維持しつつどのように軽減できるか?
  • RQ5ブラインドバックドアに対して有効な防御は何か、著者はどのような新しい防御を提案するか?

主な発見

  • ブラインド攻撃は、さまざまなトリガーとタスクに対して高いバックドア精度(約99%)を達成しつつ、主タスクの精度を大きく損なわない。
  • ImageNet では、バックドアの有無にかかわらず全訓練で主タスクの精度が65.3%で推移する一方、バックドアを用いるとトリガーに応じて68.7–68.9%程度に微小に低下する一方、バックドア精度はほぼ99%に達する。
  • MNIST由来タスク(MultiMNIST)で複数のバックドアを用いても主タスク精度は約96%を維持し、トリガーが存在する場合バックドアタスク精度は約95%程度(和、積のいずれか)を達成する。
  • NLP(IMDb感情分析)で意味論的バックドアは主タスク精度を91%に維持し、入力変更なしでバックドア精度を約98%に達成する。
  • MGDAに基づくバランシング(自動損失係数最適化)は、固定係数やバッチ汚染よりもバックドア成功率と主タスク性能の両方を高くする(例: MGDA: 主99? 96.04 主、95.47 積、95.17 和)。
  • 攻撃は追加の前方計算/後方計算パスにより訓練時間とメモリ使用量を増加させるが、収束を狙い、係数を再利用し、動的収束検知を行うことでオーバーヘッドを緩和できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。