Skip to main content
QUICK REVIEW

[論文レビュー] PoTrojan: powerful neural-level trojan designs in deep learning models

Minhui Zou, Yang Shi|arXiv (Cornell University)|Feb 8, 2018
Adversarial Robustness in Machine Learning参考文献 11被引用数 49
ひとこと要約

この論文は PoTrojan を導入します。再学習なしに事前学習済みニューラルネットワークに挿入できるニューロンレベルのトロジャンを提案し、稀な入力で作動させて機能不全または誤分類を引き起こすことを示します。実験はAlexNetとVGG16で行われました。

ABSTRACT

With the popularity of deep learning (DL), artificial intelligence (AI) has been applied in many areas of human life. Neural network or artificial neural network (NN), the main technique behind DL, has been extensively studied to facilitate computer vision and natural language recognition. However, the more we rely on information technology, the more vulnerable we are. That is, malicious NNs could bring huge threat in the so-called coming AI era. In this paper, for the first time in the literature, we propose a novel approach to design and insert powerful neural-level trojans or PoTrojan in pre-trained NN models. Most of the time, PoTrojans remain inactive, not affecting the normal functions of their host NN models. PoTrojans could only be triggered in very rare conditions. Once activated, however, the PoTrojans could cause the host NN models to malfunction, either falsely predicting or classifying, which is a significant threat to human society of the AI era. We would explain the principles of PoTrojans and the easiness of designing and inserting them in pre-trained deep learning models. PoTrojans doesn't modify the existing architecture or parameters of the pre-trained models, without re-training. Hence, the proposed method is very efficient.

研究の動機と目的

  • 事前学習済みニューラルネットワークにおけるニューロンレベルのトロジャン(PoTrojan)の概念を導入する。
  • PoTrojan が再学習なしに設計・挿入できる toy 例を示し、仕組みを説明する。
  • PoTrojan のトリガーとペイロードを設計する一般的なアルゴリズムを提示する。
  • 現実世界のモデル(AlexNet と VGG16)で PoTrojan の巧妙さと有害性を検証する。

提案手法

  • PoTrojan の構成要素を定義する:トリガーシナプスとペイロードシナプス。
  • 単一ニューロン設計と複数ニューロン設計の PoTrojan を示し、稀なトリガ条件を作り出す。
  • 活性化の低確率を保証するためのトリガー設計方程式を提供する。
  • 活性化後の出力を操作するペイロード設計を、トレーニング实例へのアクセス有無で説明する。
  • トリガーとペイロードのパラメータを計算するアルゴリズム(勾配ベースの手順を含む)を概説する。
  • ImageNet で訓練された AlexNet と VGG16 を対象に、トリガー発生と影響を実験的に検証する。

実験結果

リサーチクエスチョン

  • RQ1事前学習済みモデルに対し、アーキテクチャの変更や再学習なしにニューロンレベルのトロジャンを挿入できるか?
  • RQ2極めて稀な条件下で PoTrojan を発動させるトリガーはどう設計すべきか?
  • RQ3トリガー時に意味のある出力を変えるようペイロードをどう作成すべきか?
  • RQ4AlexNet や VGG16 のような現実のネットワークにおける PoTrojan の巧妙さ(偶発トリガー率)と有害影響はどの程度か?

主な発見

  • PoTrojans は既存のパラメータやアーキテクチャを変更せずに、事前学習済みモデルに挿入でき、効率的な悪用を可能にする。
  • トリガー入力は PoTrojan を高い信頼性で作動させることができ、挿入例では100% のトリガーを示す。
  • トリガーでない入力に対する偶発トリガーは実験上ほとんどなし(PoTrojan の偶発トリガー率は0と報告)。
  • トリガー時には PoTrojan が大きな誤分類や標的出力を引き起こし、 Tested cases では高い確信度で特定のラベルへ誘導可能。
  • ペイロード設計により出力を選択されたターゲットへ方向付けることができる(例:入力 {1,1,1,1} を特定のラベルへ高確率で誤ラベル付け)。
  • AlexNet と VGG16 の実験は、トリガー挙動とトリガー条件下での有意な出力の両方を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。