Skip to main content
QUICK REVIEW

[論文レビュー] AT-GAN: A Generative Attack Model for Adversarial Transferring on Generative Adversarial Nets.

Xiaosen Wang, Kun He|arXiv (Cornell University)|Apr 16, 2019
Adversarial Robustness in Machine Learning参考文献 24被引用数 24
ひとこと要約

AT-GANは、入力依存の摂動を回避するため、GANベースのアプローチを用いてランダムノイズから非制約的で意味的に意味のある adversarial examples を学習する、革新的な生成的攻撃フレームワークを提案する。良性データ分布から adversarial example 分布へ事前学習済み GAN を転移させることで、AT-GAN は白ボックスモデルに対して高い攻撃成功率を達成し、ブラックボックス設定でも中程度の転送性を示し、より現実的で多様な adversarial examples を生成する。

ABSTRACT

Despite the rapid development of adversarial machine learning, most adversarial attack and defense researches mainly focus on the perturbation-based adversarial examples, which is constrained by the input images. In comparison with existing works, we propose non-constrained adversarial examples, which are generated entirely from scratch without any constraint on the input. Unlike perturbation-based attacks, or the so-called unrestricted adversarial attack which is still constrained by the input noise, we aim to learn the distribution of adversarial examples to generate non-constrained but semantically meaningful adversarial examples. Following this spirit, we propose a novel attack framework called AT-GAN (Adversarial Transfer on Generative Adversarial Net). Specifically, we first develop a normal GAN model to learn the distribution of benign data, and then transfer the pre-trained GAN model to estimate the distribution of adversarial examples for the target model. In this way, AT-GAN can learn the distribution of adversarial examples that is very close to the distribution of real data. To our knowledge, this is the first work of building an adversarial generator model that could produce adversarial examples directly from any input noise. Extensive experiments and visualizations show that the proposed AT-GAN can very efficiently generate diverse adversarial examples that are more realistic to human perception. In addition, AT-GAN yields higher attack success rates against adversarially trained models under white-box attack setting and exhibits moderate transferability against black-box models.

研究の動機と目的

  • 入力画像や入力ノイズに依存する摂動に基づく adversarial attacks の制限を解決すること。
  • 入力データに依存せずに、完全にランダムノイズから合成された adversarial examples を生成する手法を開発すること。
  • adversarial examples の分布を学習することで、意味的に意味的で現実的な adversarial サンプルを生成すること。
  • adversarial distribution の生成的モデリングを活用して、特に adversarially trained モデルに対して攻撃成功率を向上させること。
  • 異なるモデル間での生成 adversarial examples の転送性を、特にブラックボックス状況を含めて調査すること。

提案手法

  • 良性トレーニングデータの分布をモデル化するための標準的な GAN を訓練し、現実的なデータ多様体表現を学習する。
  • ターゲットモデルの adversarial examples の分布を学習するために、事前学習済みジェネレータを adversarial examples で微調整することで転移する。
  • 転送されたジェネレータを用いて、直接的にランダムノイズベクトルから非制約的 adversarial examples を生成する。
  • ジェネレータを用いて、意味的に意味的で視覚的に現実的な多様な adversarial examples を生成する。
  • GAN の潜在空間を活用して adversarial distribution を探索・サンプリングし、効率的かつスケーラブルな攻撃生成を可能にする。
  • ジェネレータが複雑なデータ分布をモデル化できる能力を活用して、分布的に本物に近い adversarial examples を生成する。

実験結果

リサーチクエスチョン

  • RQ1入力データや入力ベースの摂動に依存せずに、ランダムノイズから adversarial examples を生成することは可能か?
  • RQ2GAN ベースのモデルは、人間の知覚に対して意味的に意味的で現実的な adversarial examples を効果的に学習・生成できるか?
  • RQ3AT-GAN の攻撃成功率は、白ボックスおよびブラックボックス設定において、従来の摂動ベースの攻撃と比べてどのように異なるか?
  • RQ4AT-GAN が生成する adversarial examples は、特に adversarially trained モデルにおいて、どの程度異なるモデル間で転送可能か?
  • RQ5GAN フレームワークを用いて adversarial examples の分布を効果的にモデル化・転送することで、攻撃の効率性と多様性が向上するか?

主な発見

  • AT-GAN は、入力画像や入力ベースの摂動を一切必要とせず、直接的にランダムノイズから非制約的 adversarial examples を生成することに成功した。
  • 視覚的評価と人間の知覚評価により、生成された adversarial examples がより現実的で意味的に意味的であることが確認された。
  • 特に adversarially trained モデルに対して、白ボックス設定においてベースライン手法よりも高い攻撃成功率を達成した。
  • フレームワークは中程度の転送性を示し、ターゲットモデルへの直接アクセスがなくてもブラックボックスモデルに対して効果的な攻撃を可能にした。
  • 転送された GAN ジェネレータは、実データ分布に密接に一致する adversarial examples の分布を学習し、多様で高品質なサンプル生成を可能にした。
  • 本手法は、ノイズから adversarial examples を生成することを目的とした最初の生成的モデルであり、adversarial attack 生成の新しいパラダイムを確立した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。