QUICK REVIEW

[論文レビュー] Invisible Backdoor Attacks on Deep Neural Networks via Steganography and Regularization

Shaofeng Li, Minhui Xue|arXiv (Cornell University)|Sep 6, 2019

Adversarial Robustness in Machine Learning参考文献 51被引用数 44

ひとこと要約

本論文は、見えないバックドア攻撃手法を2つ提示し、ステガノグラフィーに基づくトリガ埋め込みと正則化に基づくトリガ生成を評価し、新しい知覚指標を用いて複数のデータセットで効果と不可視性を測定する。

ABSTRACT

Deep neural networks (DNNs) have been proven vulnerable to backdoor attacks, where hidden features (patterns) trained to a normal model, which is only activated by some specific input (called triggers), trick the model into producing unexpected behavior. In this paper, we create covert and scattered triggers for backdoor attacks, invisible backdoors, where triggers can fool both DNN models and human inspection. We apply our invisible backdoors through two state-of-the-art methods of embedding triggers for backdoor attacks. The first approach on Badnets embeds the trigger into DNNs through steganography. The second approach of a trojan attack uses two types of additional regularization terms to generate the triggers with irregular shape and size. We use the Attack Success Rate and Functionality to measure the performance of our attacks. We introduce two novel definitions of invisibility for human perception; one is conceptualized by the Perceptual Adversarial Similarity Score (PASS) and the other is Learned Perceptual Image Patch Similarity (LPIPS). We show that the proposed invisible backdoors can be fairly effective across various DNN models as well as four datasets MNIST, CIFAR-10, CIFAR-100, and GTSRB, by measuring their attack success rates for the adversary, functionality for the normal users, and invisibility scores for the administrators. We finally argue that the proposed invisible backdoor attacks can effectively thwart the state-of-the-art trojan backdoor detection approaches, such as Neural Cleanse and TABOR.

研究の動機と目的

MLaaSにおけるバックドア攻撃の現実性と不可視トリガの必要性を強調して研究の動機づけを行う。
ステガノグラフィー基盤のトリガ埋め込みと正則化基盤のトリガ生成という2つの不可視バックドアアプローチを提案する。
バックドア攻撃生成のための二階層最適化フレームワークを形式化する。
人間知覚に基づく不可視性指標（PASSとLPIPS）を定義・適用して潜入度を評価する。

提案手法

機能性を未汚染データで保持しつつ汚染データで高い攻撃成功率を達成する二階層最適化問題としてバックドア形成をモデル化する。
Attack 1 は訓練データに最下位ビットステガノグラフィーを用いてトリガを埋め込み、不可視性を達成する。
Attack 2 は Lp-ノルム正則化を通じてトリガを散らし、視覚的検出性を最小化しつつニューロン活性化を最大化して効果的なバックドアを実現する。
事前訓練済みモデルをターゲットとして、毒化データで再訓練してバックドアを注入する。
不可視性を PASS と LPIPS で評価し、機能性を標準的なバックドア指標で評価する。

実験結果

リサーチクエスチョン

RQ1不可視トリガを人間には知覚されずにDNN入力へ埋め込み、バックドアを起動させることは可能か。
RQ2ステガノグラフィーベースと正則化ベースのトリガは複数データセットとモデルアーキテクチャで有効性を保つか。
RQ3提案する不可視性指標は攻撃成功と通常のモデルパフォーマンスとどのように相関するか。
RQ4 Invisible backdoors は Neural Cleanse や TABOR のような最新防御をどの程度回避できるか。

主な発見

不可視バックドアは高い攻撃成功率を達成しつつクリーンデータでのモデル機能性を維持する。
LSB埋め込みによるステガノグラフィー基盤のトリガは、トリガサイズ、不可視性（PASS/LPIPS）、再訓練エポック数のトレードオフを示す。
正則化ベースのトリガは特定のニューロンを活性化する小さな摂動を生み出し、限られたデータと訓練で効果的なバックドアを可能にする。
提案された不可視性指標 PAS S と LPIPS はバックドアトリガの人間知覚的不可視性を定量化する指標を提供する。
不可視バックドアは Neural Cleanse や TABOR のような防御の検出を潜在的に阻害できる。
実験は MNIST、CIFAR-10、CIFAR-100、GTSRB のデータセット全体でアプローチの有効性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。