QUICK REVIEW

[論文レビュー] Black-Box Adversarial Attack with Transferable Model-based Embedding

Zhichao Huang, Tong Zhang|arXiv (Cornell University)|Nov 17, 2019

Adversarial Robustness in Machine Learning参考文献 39被引用数 49

ひとこと要約

TREMBA は、ソースモデルでジェネレータを訓練し、その後 embedding space で NES ベースの探索を行い、未知のターゲットを攻撃して転送可能な敵対摂動を生成する低次元埋め込みを学習する。クエリ効率と成功率を向上させ、 defended モデルや実 API にも適用可能。

ABSTRACT

We present a new method for black-box adversarial attack. Unlike previous methods that combined transfer-based and scored-based methods by using the gradient or initialization of a surrogate white-box model, this new method tries to learn a low-dimensional embedding using a pretrained model, and then performs efficient search within the embedding space to attack an unknown target network. The method produces adversarial perturbations with high level semantic patterns that are easily transferable. We show that this approach can greatly improve the query efficiency of black-box adversarial attack across different target network architectures. We evaluate our approach on MNIST, ImageNet and Google Cloud Vision API, resulting in a significant reduction on the number of queries. We also attack adversarially defended networks on CIFAR10 and ImageNet, where our method not only reduces the number of queries, but also improves the attack success rate.

研究の動機と目的

転送性とクエリ効率のバランスをとるブラックボックス攻撃を動機づける。
未知のターゲットネットワークを攻撃するための二段階フレームワーク（ジェネレータベース埋め込みと NES 探索）を提案する。
埋め込み空間の摂動が高レベルのセマンティックパターンを捉え、モデル間で転送可能であることを示す。
undefended データセットと defended データセット、実世界の API を含む効果を実証する。

提案手法

x から摂動 delta = epsilon * tanh(D(E(x))) を生成するエンコーダ-デコーダージェネレータ G（E と D からなる）を訓練する。
C&W 形式に従いヒンジ損失を用いて Fs（white-box ソースネットワーク）上で G を訓練し、Fs を欺く摂動を形作る（untargeted または targeted）。
未知のターゲット Ft を欺く摂動を見つけるため、低次元埋め込み z 上で NES（natural evolution strategies）を用いたブラックボックス探索を行い、符号正規化なしで勾配推定を用いて z を更新する。
z0 = E(x) から開始し、NES による勾配を用いて順次 zt を更新し、その後 delta = epsilon * tanh(D(zt)) を出力する。
δ を L∞ バジェット内に保つため、z の周りにガウス摂動モデルを用い、サンプリングとクリッピングステップを適用する。untargeted および targeted 損失の両方を扱う。
なぜ埋め込み空間探索が、Fs から学習された高レベルの転送可能なセマンティクスのおかげで効果的な敵対パターンの発見を加速するのかを説明する。

実験結果

リサーチクエスチョン

RQ1未知のターゲットネットワークに対して、事前訓練済みソースネットワークから学習した低次元埋め込みが効率的なブラックボックス攻撃を可能にするのか？
RQ2埋め込み空間で生成された摂動は、アーキテクチャや防御を越えて転送される高レベルのセマンティックパターンを示すのか？
RQ3defended モデルおよび undefended モデル、実世界の API に対して、クエリ効率と成功率の観点で TREMBA はどの程度機能するのか？

主な発見

TREMBA は MNIST および ImageNet で baseline なブラックボックス攻撃と比較してクエリ数を最大で 2–6 倍削減する。
TREMBA によって生成された摂動は高レベルのセマンティックパターンを示し（ターゲットクラスの特徴に似たパターンなど）、異なるターゲットモデルへ転送する。
TREMBA は defended モデル（CIFAR-10 および ImageNet）に対して、AutoZOOM や P-RGF などの競合手法と比べて、はるか少ないクエリでより高い成功率を達成する。
Google Cloud Vision API において、ベースライン手法よりもはるか高い成功率を、はるか少ないクエリで達成する。
最適化された開始点 z0*（OSP）を用いると、特に低いクエリ数で defended モデルの性能がさらに向上する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。