Skip to main content
QUICK REVIEW

[論文レビュー] ConFoc: Content-Focus Protection Against Trojan Attacks on Neural Networks

Miguel Villarreal-Vasquez, Bharat Bhargava|arXiv (Cornell University)|Jul 1, 2020
Adversarial Robustness in Machine Learning参考文献 48被引用数 23
ひとこと要約

ConFoc は、スタイルではなくコンテンツに注目させるように学習することで、トロイの木馬が仕掛けられた深層ニューラルネットワークを強化する新しい防御手法である。スタイル変換を用いて多様な訓練サンプルを生成することで、多様なトリガーに対して攻撃成功確率を1%未満に低下させつつ、通常入力および悪意ある入力の両方におけるモデルの精度を維持または向上させる。

ABSTRACT

Deep Neural Networks (DNNs) have been applied successfully in computer vision. However, their wide adoption in image-related applications is threatened by their vulnerability to trojan attacks. These attacks insert some misbehavior at training using samples with a mark or trigger, which is exploited at inference or testing time. In this work, we analyze the composition of the features learned by DNNs at training. We identify that they, including those related to the inserted triggers, contain both content (semantic information) and style (texture information), which are recognized as a whole by DNNs at testing time. We then propose a novel defensive technique against trojan attacks, in which DNNs are taught to disregard the styles of inputs and focus on their content only to mitigate the effect of triggers during the classification. The generic applicability of the approach is demonstrated in the context of a traffic sign and a face recognition application. Each of them is exposed to a different attack with a variety of triggers. Results show that the method reduces the attack success rate significantly to values < 1% in all the tested attacks while keeping as well as improving the initial accuracy of the models when processing both benign and adversarial data.

研究の動機と目的

  • 自己走行車や顔認識などの重要なアプリケーションで使用される深層ニューラルネットワークにおけるトロイの木馬攻撃の増加する脅威に対処すること。
  • 既存の防御では精度が低下するか、複雑で適応的なトリガーに対して失敗するという限界を克服すること。
  • アーキテクチャの変更や大規模データセットを必要としない汎用的でモデルに依存しない防御を構築すること。
  • 人間が視覚的摂動に対して耐性を示すのと同様に、DNN が意味的コンテンツに基づいて入力を分類できるようにすること。
  • 治癒後でさえ、悪意あるサンプルを処理する際のモデルの精度を維持または向上させること。

提案手法

  • ConFoc は、良性入力の小さな集合に、ランダムなベース画像からのスタイルを適用して拡張する。
  • 神経的スタイル変換を用いて、各良性入力の複数のスタイル変更版を生成し、コンテンツは保持しながらテクスチャーや色を変更する。
  • モデルは元の良性サンプルとスタイル変更済みの良性サンプルのみで再訓練され、コンテンツベースの特徴を学習し、トリガー関連のスタイルパターンを無視するよう強制される。
  • 推論時には、スタイルが訓練プロセスのおかげで実質的に無視されるため、入力のスタイルにかかわらず分類が行われる。
  • 治癒プロセスはモデルアーキテクチャ、データセット、攻撃タイプに依存しないため、広範な適用性を有する。
  • 本手法は、小さな治癒データセットと少数のスタイルベース画像へのアクセスを仮定しており、実用的で軽量である。

実験結果

リサーチクエスチョン

  • RQ1RQ1: ConFoc は、多様なトリガータイプに対して、トロイの木馬が仕掛けられたモデルの攻撃成功確率を効果的に低減できるか?
  • RQ2RQ2: 治癒後、良性および悪意ある入力の両方における ConFoc の精度は、維持または向上するか?
  • RQ3RQ3: ConFoc は、異なるモデル、データセット、攻撃変種(BadNets やトロイの木馬攻撃を含む)に一般化可能か?
  • RQ4RQ4: 適応的攻撃者(検出を回避するためにスタイルを施した悪意あるトリガーを設計する者)に対しても、ConFoc は効果的か?
  • RQ5RQ5: 治癒プロセスで使用するスタイルの数を増やすことで、複雑なトリガーに対する耐性が向上するか?

主な発見

  • ConFoc は、すべてのテスト済みのトリガー(適応的・複雑なタイプを含む)に対して、攻撃成功確率(ASR)を 0.00% に低下させた。
  • 良性入力の精度は安定または向上し、治癒後は 97.44% から 98.14% の範囲で維持された。
  • 悪意ある入力に対しても、精度は保持または向上し、治癒後は最大で 98.14% に達した。初期の精度が低くても同様に有効であった。
  • 複数のマークや一対多のトリガーを含む、すべての攻撃変種において、ConFoc は性能を維持または向上させた。
  • ConFoc は、検出・除去が困難な複数層の複雑なトリガーを持つ BadNets 攻撃を効果的に無効化した。
  • 治癒プロセスは、訓練時にスタイル付きの悪意あるサンプルを使用して ConFoc を回避しようとする適応的攻撃者に対しても、頑健であった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。