Skip to main content
QUICK REVIEW

[論文レビュー] The Space of Transferable Adversarial Examples

Florian Tramèr, Nicolas Papernot|arXiv (Cornell University)|Apr 11, 2017
Adversarial Robustness in Machine Learning参考文献 20被引用数 435
ひとこと要約

本論文は敵対的サブ空間の次元性を見積もり、転移可能な敵対的サンプルはモデル間で高次元の重なりを持つ空間を占め、境界は多様なアーキテクチャ間で近いことを示している。

ABSTRACT

Adversarial examples are maliciously perturbed inputs designed to mislead machine learning (ML) models at test-time. They often transfer: the same adversarial example fools more than one model. In this work, we propose novel methods for estimating the previously unknown dimensionality of the space of adversarial inputs. We find that adversarial examples span a contiguous subspace of large (~25) dimensionality. Adversarial subspaces with higher dimensionality are more likely to intersect. We find that for two different models, a significant fraction of their subspaces is shared, thus enabling transferability. In the first quantitative analysis of the similarity of different models' decision boundaries, we show that these boundaries are actually close in arbitrary directions, whether adversarial or benign. We conclude by formally studying the limits of transferability. We derive (1) sufficient conditions on the data distribution that imply transferability for simple model classes and (2) examples of scenarios in which transfer does not occur. These findings indicate that it may be possible to design defenses against transfer-based attacks, even for models that are vulnerable to direct attacks.

研究の動機と目的

  • 敵対的サブ空間の次元性とそのモデル間の転移性を定量化する。
  • 敵対的および良性方向で異なるモデルの意思決定境界がどれだけ近いかを評価する。
  • 転移可能性が発生する条件や失敗する条件を調査し、敵対的訓練のような防御の影響を分析する。

提案手法

  • Gradient Aligned Adversarial Subspace (GAAS) を導入し、複数の直交する敵対的方向を見つける。
  • 1次近似ロスを用いて、与えられたノルム制限内の直交摂動を生成・カウントする。
  • MNISTとDREBINデータセットを跨いで源モデルとターゲットモデルに摂動を適用して転移性を測定する。
  • 正当方向、敵対方向、ランダム方向における境界間距離と最小距離を分析し、モデル境界を比較する。
  • クラス平均の差に基づくモデル非依存摂動を検討し、転移性の理論条件を示す。

実験結果

リサーチクエスチョン

  • RQ1ニューラルネットワークや他のモデルを欺く敵対的サブスペースの実効的次元性はどれくらいか。
  • RQ2特に敵対方向において、異なるモデルの意思決定境界はどれくらい類似しており、転移性とどう関連するか。
  • RQ3転移性が保証されるまたは崩れるデータ分布とモデルクラスは何か、転移性の十分条件は何か。
  • RQ4敵対的訓練のような防御は境界間距離の近接性とブラックボックス攻撃の実用性にどう影響するか。

主な発見

  • 敵対的例は連続した多次元サブ空間にまたがる。例えばMNIST上の2つの全結合ネットワークは、ターゲットモデルへ転移する約24.87方向を含む25次元の転移可能サブ空間を生み出す。
  • スパンされたサブスペース内をランダムにサンプルすると、源モデルの誤分類が99%、ターゲットモデルが89%で誤分類となる(MNIST CNNs/FCsの場合)。転移率はモデルペアによって異なる(例:MNISTのCNNsで68%)。
  • 異なるモデルの意思決定境界は、敵対方向および良性方向の両方で非常に近く、境界の類似性が高いことを示す。
  • 敵対的訓練は境界間距離を増加させるが転移性を完全には防げず、転移した摂動は依然として源境界を越えて防御モデルを欺くことがある。
  • クラス平均差に基づくモデル非依存摂動は、特定の整列条件の下で線形・二次モデルへ転移可能になる場合がある。そうした整列と特徴写像が保持されない場合(XORアーティファクトの例)、転移は失敗する。
  • この論文は単純なモデルクラスにおける転移性の十分条件を示すとともに、転移性が成立しない反例も提示しており、すべての設定で普遍的ではないことを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。