QUICK REVIEW

[論文レビュー] Generalizable Adversarial Attacks Using Generative Models.

Avishek Joey Bose, Andre Cianflone|arXiv (Cornell University)|May 26, 2019

Adversarial Robustness in Machine Learning参考文献 16被引用数 5

ひとこと要約

本論文は、生成モデルを用いて敵対的摂動の分布を学習するドメインに依存しないフレームワークを提案する。これにより、画像、テキスト、グラフのあらゆる分野で多様で一般化可能なホワイトボックス攻撃が可能になる。本手法はグラフ分野で最先端の性能を達成し、訓練時に見未曾ざらぬテストインスタンスに対してもゼロショット攻撃一般化を示した。

ABSTRACT

Adversarial attacks on deep neural networks traditionally rely on a constrained optimization paradigm, where an optimization procedure is used to obtain a single adversarial perturbation for a given input example. In this work we frame the problem as learning a distribution of adversarial perturbations, enabling us to generate diverse adversarial distributions given an unperturbed input. We show that this framework is domain-agnostic in that the same framework can be employed to attack different input domains with minimal modification. Across three diverse domains---images, text, and graphs---our approach generates whitebox attacks with success rates that are competitive with or superior to existing approaches, with a new state-of-the-art achieved in the graph domain. Finally, we demonstrate that our framework can efficiently generate a diverse set of attacks for a single given input, and is even capable of attacking extit{unseen} test instances in a zero-shot manner, exhibiting attack generalization.

研究の動機と目的

従来の敵対的攻撃が1入力あたり1つの摂動しか生成できないという制限を克服し、代わりに多様な敵対的摂動の分布を学習すること。
画像、テキスト、グラフなどの異なる入力モダリティに適応するための最小限の変更で済む、ドメインに依存しないフレームワークの開発。
微調整なしで未観測のテストインスタンスに対しても成功するゼロショット攻撃一般化を可能にすること。
特にグラフ分野において、既存手法と比較して攻撃成功率と多様性を向上させること。

提案手法

条件付き生成モデルを用いて敵対的攻撃生成を分布学習問題として定式化し、生成器がクリーンな入力を敵対的摂動の分布にマッピングするように学習する。
ターゲット分類器を欺くように摂動を生成しつつ、入力ドメインに応じて人間が認識できないか、意味的に妥当な状態を保つように損失関数を設計する。
生成された摂動の分布を正則化するために、潜在空間の事前分布（例：ガウス分布）を用いることで、同じ入力から多様なサンプリングが可能になる。
画像、テキスト、グラフデータに適した生成器および識別器のアーキテクチャと損失部品を変更することで、異なるドメインにフレームワークを適応させる。
訓練時に見未曾ざらな入力に対しても再訓練なしで摂動をサンプリングできるように、学習済みの分布を活用することでゼロショット攻撃一般化を実現する。
攻撃成功率を多様なテストインスタンスで評価するためにブラックボックス評価プロトコルを採用し、特に訓練時に見未曾ざらなインスタンスに対しても評価を実施する。

実験結果

リサーチクエスチョン

RQ1同じ生成フレームワークを用いて、アーキテクチャの変更を最小限に抑えつつ、複数の入力ドメインで多様な敵対的摂動を生成可能か？
RQ2摂動の分布を学習することで、単一摂動手法と比較して攻撃成功率が向上するか？
RQ3訓練時に未観測のテストインスタンスに対しても、微調整なしでゼロショットで一般化可能か？
RQ4画像、テキスト、グラフの各分野において、攻撃成功率と多様性の観点から、最先端の攻撃手法と比較して本手法はどのように差をつけるか？

主な発見

本手法は、画像、テキスト、グラフの3分野すべてにおいて、既存手法と比較して競争力あるか、あるいは優れた攻撃成功率を達成した。
本フレームワークは、グラフ分野で新たな最先端の攻撃成功率を樹立し、先行手法を上回った。
1つの入力に対して多様な敵対的摂動を生成でき、複数の攻撃経路を探索できる能力を示した。
効果的なゼロショット攻撃一般化が可能であり、再訓練なしで未観測のテストインスタンスに対しても成功した。
ドメインに依存しないアプローチであり、画像、テキスト、グラフなどの異なる入力タイプに適応させるために、わずかな変更のみで対応可能だった。
生成モデルの定式化により、1入力あたり複数の敵対的例を効率的にサンプリングでき、攻撃の多様性とロバスト性が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。