QUICK REVIEW

[論文レビュー] Reflection Backdoor: A Natural Backdoor Attack on Deep Neural Networks

Yunfei Liu, Xingjun Ma|ArXiv.org|Jul 5, 2020

Adversarial Robustness in Machine Learning参考文献 69被引用数 38

ひとこと要約

本論文は Refool を紹介する。自然な反射をトリガーとして利用し、DNNs にバックドアを埋め込むステルス性の高いバックドア攻撃であり、最小限のデータ汚染で高い攻撃成功率を達成し、防御に対する強い耐性を示す。

ABSTRACT

Recent studies have shown that DNNs can be compromised by backdoor attacks crafted at training time. A backdoor attack installs a backdoor into the victim model by injecting a backdoor pattern into a small proportion of the training data. At test time, the victim model behaves normally on clean test data, yet consistently predicts a specific (likely incorrect) target class whenever the backdoor pattern is present in a test example. While existing backdoor attacks are effective, they are not stealthy. The modifications made on training data or labels are often suspicious and can be easily detected by simple data filtering or human inspection. In this paper, we present a new type of backdoor attack inspired by an important natural phenomenon: reflection. Using mathematical modeling of physical reflection models, we propose reflection backdoor (Refool) to plant reflections as backdoor into a victim model. We demonstrate on 3 computer vision tasks and 5 datasets that, Refool can attack state-of-the-art DNNs with high success rate, and is resistant to state-of-the-art backdoor defenses.

研究の動機と目的

標準的なデータフィルタリングで検出が難しいステルス性の高いバックドア攻撃の研究を動機づける。
自然反射現象に基づくバックドアトリガーを提案し、ステルス性と現実感を高める。
反射トリガーを用いた小さな汚染率でも、複数のデータセットとモデルで高い攻撃成功率を達成できることを示す。
反射ベースのバックドアが、従来のバックドア手法と比べて既存の防御に対してより耐性があることを示す。

提案手法

バックドアトリガーを物理的な反射過程としてモデル化する：x_adv = x + x_R ⊗ k、ここで k は反射カーネル。
3つの反射レジーム（イン・プレーン、焦点外ぼかし、ゴースト反射）と対応するカーネル形を定義する。
野生候補集合 R_cand から効果的な反射を選択し、R_adv を形成する敵対的反射画像選択アルゴリズムを反復的に開発する。
選択した反射パターンをクリーンラベル設定の下でターゲットクラスの訓練データに注入し、毒されたモデル f_adv を訓練する。
推論時に R_adv からの反射をテスト入力へ適用してターゲットクラス y_adv を誘発する。
データセット/モデル全体で攻撃効果を評価し、Badnets、CL、SIG と比較する。）

実験結果

リサーチクエスチョン

RQ1自然な反射パターンは防御によって検出されにくいステルス性のバックドアトリガーとして機能するか？
RQ2反射ベースのトリガーを使用した場合、高い攻撃成功率を達成するのに必要な最小のデータ汚染率は？
RQ3反射ベースのバックドアはデータセット固有のトリガー設計なしに、データセットやモデルアーキテクチャを跨いで伝搬するか？
RQ4反射ベースのバックドアは最先端の防御手法（ファインチューニング、プルーニング、Neural Cleanse）に対してどう耐性を示すか？

主な発見

Refool は 5 つのデータセットと複数のモデルで、注入率が 3.27% 未満でも攻撃成功率が 75% を超える。
クリーンテスト時の精度は平均して 3% 未満の低下にとどまり、強い隠密性を示す。
反射ベースのトリガーは、CL および SIG のベースラインよりもファインチューニングとニューロンプリーニング防御に対して耐性が高い。
敵対的反射画像選択は約 9 回程度の反復で効果的なトリガーへ収束する。
異なる反射タイプ（タイプ I-III）と混合は、入力への歪みを適度に保ちつつ攻撃力を高める。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。