Skip to main content
QUICK REVIEW

[論文レビュー] Enhancing Adversarial Example Transferability with an Intermediate Level Attack

Qian Huang, Isay Katsman|arXiv (Cornell University)|Jul 23, 2019
Adversarial Robustness in Machine Learning参考文献 31被引用数 40
ひとこと要約

ILA は、事前に指定された中間層での摂動を強調することで、モデル間でのブラックボックス転送性を高めるよう、既存の敵対的サンプルを微調整します。

ABSTRACT

Neural networks are vulnerable to adversarial examples, malicious inputs crafted to fool trained models. Adversarial examples often exhibit black-box transfer, meaning that adversarial examples for one model can fool another model. However, adversarial examples are typically overfit to exploit the particular architecture and feature representation of a source model, resulting in sub-optimal black-box transfer attacks to other target models. We introduce the Intermediate Level Attack (ILA), which attempts to fine-tune an existing adversarial example for greater black-box transferability by increasing its perturbation on a pre-specified layer of the source model, improving upon state-of-the-art methods. We show that we can select a layer of the source model to perturb without any knowledge of the target models while achieving high transferability. Additionally, we provide some explanatory insights regarding our method and the effect of optimizing for adversarial examples using intermediate feature maps. Our code is available at https://github.com/CUVL/Intermediate-Level-Attack.

研究の動機と目的

  • 白-box の敵対的攻撃の転送性が黒箱設定で乏しいことを動機づけ、対処する。
  • 中間層の摂動を介して既存の敵対的サンプルを調整するIntermediate Level Attack (ILA) を導入する。
  • ターゲットモデルへのアクセスを必要としない層選択戦略を提供する。
  • 中間表現が転送性に影響を与える理由について、理論的および実証的見解を提供する。

提案手法

  • ILAP(投影ベースの損失)とILAF(大きさと方向を制御する柔軟な損失)という2つの ILA 変種を定義する。
  • 微調整ステップとして動作する:ベースライン攻撃 A から事前生成した敵対的サンプル x' から始め、選択された層 l での摂動を最大化するように epsilon-ボール内で最適化する。
  • ILAP loss: L = -Δy_l'' · Δy_l' where Δy_l' and Δy_l'' are layer l outputs differences for x' and x'' respectively.
  • ILAF loss: L = -α * ||Δy_l''||_2 / ||Δy_l'||_2 - (Δy_l'' / ||Δy_l''||_2) · (Δy_l' / ||Δy_l'||_2).
  • Layer selection guidance: identify the layer that yields the latest peak in disturbance values across layers, which correlates with higher transferability.
  • Evaluation across CIFAR-10 and ImageNet on multiple models (e.g., ResNet18, SENet18, DenseNet121, GoogLeNet) and against baselines like I-FGSM, MI-FGSM, and CARLINI-WAGNER variants.

実験結果

リサーチクエスチョン

  • RQ1中間層を摂動させることで、ソースモデルの敵対的サンプルのブラックボックス転送性を高めることができるか?
  • RQ2ターゲットモデルのアクセスなしに最大化するための層別の摂動パターンを事前に特定できるか?
  • RQ3ILAP と ILAF は標準データセットおよび ImageNet において、従来の転送焦点攻撃(例: TAP、DI2-FGSM など)とどう比較されるか?
  • RQ4ほぼ最適に近い中間層の選択は、異なるターゲットモデルとアーキテクチャ間で一般化するか?

主な発見

  • ILA は複数のモデルとデータセットで転送性を改善する。
  • 特定の中間層を狙う(特に後方の層の一部)ことで転送性が高まり、層選択はターゲットモデルへのアクセスなしで実現可能。
  • ILAP はしばしばベースライン攻撃を上回り、ImageNet の設定では TAP や DI2-FGSM のような最先端の転送攻撃を凌ぐこともある。
  • ILAF は転送性をさらに改善できるが、ILAP を上回るにはモデル固有のハイパーパラメータ調整が必要。
  • 提案された層選択ヒューリスティックは転送性の高まりと相関し、転送モデルを評価せずにほぼ最適な層を選ぶのに利用できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。