Skip to main content
QUICK REVIEW

[論文レビュー] T-Miner: A Generative Approach to Defend Against Trojan Attacks on DNN-based Text Classification

Ahmadreza Azizi, Ibrahim Asadullah Tahmid|arXiv (Cornell University)|Mar 6, 2021
Adversarial Robustness in Machine Learning被引用数 23
ひとこと要約

T-Miner は、合成的で意味のない入力を用いてシーケンス・ツー・シーケンス(seq-2-seq)モデルを訓練することで、トリガー語句のパターンをプローブする生成的防御フレームワークであり、トレーニングデータにアクセスせずにバックドア攻撃を検出する。この手法は、トレーニングデータを必要とせず、適応的・マルチトリガー・部分的バックドア攻撃に対しても耐性を示し、98.75%の正確性を達成する。

ABSTRACT

Deep Neural Network (DNN) classifiers are known to be vulnerable to Trojan or backdoor attacks, where the classifier is manipulated such that it misclassifies any input containing an attacker-determined Trojan trigger. Backdoors compromise a model's integrity, thereby posing a severe threat to the landscape of DNN-based classification. While multiple defenses against such attacks exist for classifiers in the image domain, there have been limited efforts to protect classifiers in the text domain. We present Trojan-Miner (T-Miner) -- a defense framework for Trojan attacks on DNN-based text classifiers. T-Miner employs a sequence-to-sequence (seq-2-seq) generative model that probes the suspicious classifier and learns to produce text sequences that are likely to contain the Trojan trigger. T-Miner then analyzes the text produced by the generative model to determine if they contain trigger phrases, and correspondingly, whether the tested classifier has a backdoor. T-Miner requires no access to the training dataset or clean inputs of the suspicious classifier, and instead uses synthetically crafted "nonsensical" text inputs to train the generative model. We extensively evaluate T-Miner on 1100 model instances spanning 3 ubiquitous DNN model architectures, 5 different classification tasks, and a variety of trigger phrases. We show that T-Miner detects Trojan and clean models with a 98.75% overall accuracy, while achieving low false positives on clean models. We also show that T-Miner is robust against a variety of targeted, advanced attacks from an adaptive attacker.

研究の動機と目的

  • 深層ニューラルネットワーク(DNN)ベースのテキスト分類器における、静かで検出が難しいバックドア攻撃の増加する脅威に対処するため、特に逐次的ドメインにおける防御研究が限られていることに対応する。
  • 懸念されるモデルのトレーニングデータやクリーンな入力にアクセスできない状況でも動作する防御メカニズムを開発する。
  • 単一のトリガーだけでなく、マルチトリガーおよびソース固有の部分的バックドアを含む、多様なテキスト分類タスクにおける複雑なトリガーを検出する。
  • 防御パイプラインを把握した攻撃者(適応的攻撃者)が検出を回避するためにトリガーを変更または戦略を変更する状況でも、耐性を示すことを保証する。

提案手法

  • T-Miner は、合成的に作成された意味のないテキスト入力のシーケンス・ツー・シーケンス(seq-2-seq)生成モデルを用い、懸念される分類器がトリガー語句のパターンを含むかどうかをプローブする。
  • 生成モデルは、トロイの木馬のトリガーの一部を含む可能性の高いテキストシーケンスを生成し、異常解析によってバックドア行動を検出する。
  • アドバーシャル・ペルチベーション生成を用いて、入力が変更された際のモデル予測のずれを分析することで、トリガー語句を同定する。
  • グリーディー探索と Top-K の二段階探索戦略により、初期候補がフィルタリングされてしまう状況でも、トリガーの回復を向上させる。
  • 生成されたシーケンスに対して外れ値検出を適用し、トリガー語句を含むものを特定する。これにより、奇妙なパターンを示すモデルは、潜在的なバックドアが仕込まれているとマークされる。
  • 本フレームワークは、3つのアーキテクチャ(LSTM、Bi-LSTM、Transformer)、5つの分類タスク、複数のトリガータイプを含む、合計1100のモデルインスタンスに対して評価されている。

実験結果

リサーチクエスチョン

  • RQ1トレーニングデータやクリーンな入力にアクセスできない状況でも、生成モデルがテキスト分類モデルにおけるバックドアトリガーを効果的に検出できるか?
  • RQ2T-Miner は、マルチトリガー攻撃や部分的バックドア攻撃を含む、多様なタイプのバックドア攻撃をどの程度効果的に検出できるか?
  • RQ3T-Miner は、トリガーを変更したり攻撃戦略を変更したりして検出を回避しようとする適応的攻撃者に対しても、どの程度耐性を示すか?
  • RQ4T-Miner の性能は、多様な DNN アーキテクチャやテキスト分類タスクにおいてどのように変動するか?
  • RQ5T-Miner は、クリーンなモデルでは低い偽陽性率を維持しながら、トロイの木馬が仕込まれたモデルでは高い検出正確性を達成できるか?

主な発見

  • T-Miner は、1100のモデルインスタンス(クリーンモデルとトロイの木馬モデルを含む)全体で98.75%の検出正確性を達成した。
  • グリーディー探索を用いることで、T-Miner はクリーンモデルで99.09%の正確性を達成し、偽陽性率が極めて低いことが示された。
  • マルチトリガー攻撃において、Top-K 探索(K=5)を用いることで、40のトロイの木馬モデルすべてを正しく検出できた。グリーディー探索の限界を克服した。
  • 部分的バックドア攻撃では、グリーディー探索で40体中39体のトロイの木馬モデルを検出し、Top-K 探索ではすべての40体を検出できた。これにより、ソース固有のトリガーに対しても耐性があることが示された。
  • T-Miner は適応的攻撃に対しても耐性を示し、弱攻撃や検出しづらいトリガー設計でさえも、標準的なフィルタリング閾値を回避できる。
  • 本フレームワークは、センチメント、嫌がらせ発言、フェイクニュース、ニュース分類など多様なタスクにおいて、複数の DNN アーキテクチャを用いてバックドアを効果的に検出できた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。