Skip to main content
QUICK REVIEW

[論文レビュー] UPSET and ANGRI : Breaking High Performance Image Classifiers

Sayantan Sarkar, Ankan Bansal|arXiv (Cornell University)|Jul 4, 2017
Adversarial Robustness in Machine Learning参考文献 15被引用数 90
ひとこと要約

この論文は、MNISTとCIFAR-10の高性能画像分類器を欺く、2つの黒箱型ターゲット攻撃手法、UPSET(普遍的摂動)とANGRI(画像特異的摂動)を提示します。

ABSTRACT

In this paper, targeted fooling of high performance image classifiers is achieved by developing two novel attack methods. The first method generates universal perturbations for target classes and the second generates image specific perturbations. Extensive experiments are conducted on MNIST and CIFAR10 datasets to provide insights about the proposed algorithms and show their effectiveness.

研究の動機と目的

  • 高性能画像分類器のターゲット fooled を動機づけ、対処する。
  • 特定のターゲットクラスを強制する摂動画像を生成する2つの攻撃アルゴリズム、UPSETとANGRIを導入する。
  • MNISTとCIFAR-10データセットで攻撃の有効性と忠実度を評価する。
  • 異なる被害者分類器および学習方式間での一般化を分析する。

提案手法

  • UPSET は残差生成器 R を用いてターゲットごとに universal perturbation を学習し、各ターゲット t に対して r_t を生成する;敵対的画像は x_hat = clip_U(x, t) であり、 x_hat = max(min(s * R(t) + x, 1), -1) となる。
  • ANGRI は入力画像 x とターゲット t を専用ネットワーク A で組み合わせて画像依存の摂動を生成し、 x_hat = A(x, t) となる。
  • 両手法は損失関数 L = L_C(x_hat, t) + L_F(x, x_hat) を最適化する。ここで L_C は複数の事前学習済み分類器に対するクロスエントロピー誤分類損失、L_F は忠実度損失(x と x_hat のノルム)である。
  • UPSET の場合、摂動は残差自体に内在するため L_F は ||R(x, t)||_2^2 に置換される。
  • 実験では MNIST と CIFAR-10 で Targeted Fooling Rate (TFR)、Misclassification Rate (MR)、Fidelity Score (FS)、Confidence (C) を測定する;アーキテクチャは MNIST および CIFAR-10 に対して詳述される。

実験結果

リサーチクエスチョン

  • RQ1黒箱の摂動ネットワークは複数のターゲットクラスに対してターゲット fooling を達成できるか?
  • RQ2UPSET(普遍的摂動)と ANGRI(画像依存摂動)の欺瞞率と視覚的忠実度の点での相対的性能はどうか?
  • RQ3UPSET と ANGRI は類似の被害者分類器アーキテクチャ間でどの程度一般化するか?
  • RQ4複数の分類器を同時に訓練することでモデル間の一般化は改善されるか?
  • RQ5視覚的損失の重み w は MNIST/CIFAR-10 におけるターゲット fooling と忠実度にどう影響するか?

主な発見

  • UPSET と ANGRI は黒箱設定下で MNIST と CIFAR-10 において有意なターゲット fooling 率を達成する。
  • ANGRI は入力依存の摂動を用いるため、同程度の忠実度で一般的により高い TFR を示す。
  • 複数の分類器を同時に訓練すると、攻撃のモデル間一般化が改善されることが多いが自己攻撃性能には小さな代償を伴う。
  • モデル間の一般化は同じ構造に近い分類器ほど高く、同タイプ(例:CNNs や ResNets)の他のモデルへはより良く一般化する。
  • 攻撃の信頼度はターゲットクラスが達成されたときに高く、成功した fools の下で誤分類の確実性が強いことを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。