Skip to main content
QUICK REVIEW

[論文レビュー] Cascade Adversarial Machine Learning Regularized with a Unified Embedding

Taesik Na, Jong Hwan Ko|arXiv (Cornell University)|Aug 8, 2017
Adversarial Robustness in Machine Learning参考文献 14被引用数 62
ひとこと要約

この論文は defended ネットワークから iteratively generated adversarial images を用いる cascade adversarial training を導入し、低レベルの embedding similarity regularization と組み合わせて、未知の反復攻撃およびブラックボックス状況への頑健性を向上させる。ただし、クリーン精度の損失を伴う。

ABSTRACT

Injecting adversarial examples during training, known as adversarial training, can improve robustness against one-step attacks, but not for unknown iterative attacks. To address this challenge, we first show iteratively generated adversarial images easily transfer between networks trained with the same strategy. Inspired by this observation, we propose cascade adversarial training, which transfers the knowledge of the end results of adversarial training. We train a network from scratch by injecting iteratively generated adversarial images crafted from already defended networks in addition to one-step adversarial images from the network being trained. We also propose to utilize embedding space for both classification and low-level (pixel-level) similarity learning to ignore unknown pixel level perturbation. During training, we inject adversarial images without replacing their corresponding clean images and penalize the distance between the two embeddings (clean and adversarial). Experimental results show that cascade adversarial training together with our proposed low-level similarity learning efficiently enhances the robustness against iterative attacks, but at the expense of decreased robustness against one-step attacks. We show that combining those two techniques can also improve robustness under the worst case black box attack scenario.

研究の動機と目的

  • 未知の反復的攻撃者に対する頑健性のギャップを動機付ける(1ステップの攻撃を超える)。
  • defended ネットワークからの adversarial training の最終結果を転移する cascade adversarial training を提案する。
  • トレーニング中にピクセルレベルの摂動を無視するための low-level embedding regularization を導入する。
  • ResNet アーキテクチャを用いて MNIST および CIFAR-10 で評価する。
  • 白箱および黒箱攻撃の下での転移性、埋め込み空間、および頑健性を分析する。

提案手法

  • 同じ戦略で訓練されたネットワーク間で iteratively 生成された adversarial images の転移性を実証する。
  • cascade adversarial training を開発する:already defended network から craft された iter_FGSM 画像と、訓練中のネットワークに対する one-step adversarial 画像を混在させる。
  • 低レベルの類似性学習を導入し、ミニバッチにクリーン画像を含め、クリーンと adversarial embedding の距離を penalize する(L_dist)。
  • two embedding regularization variants を探索する:bidirectional loss と pivot loss。
  • 総損失を、クリーン/ adversarial 画像上の標準分類損失と embedding distance loss のハイパーパラメータ lambda および lambda2 を含む組み合わせとして定義する。
  • クリーンと adversarial embedding の間の発散を抑えた埋め込み空間を可視化し、lambda2 の性能への影響を調べる。
  • MNIST および CIFAR-10 を ResNet バックボーンで評価し、白箱および黒箱攻撃のシナリオを分析する。

実験結果

リサーチクエスチョン

  • RQ1同じ戦略で訓練されたネットワーク間で iteratively 生成された adversarial examples の転移性はどの程度か。
  • RQ2cascade adversarial training はクリーン精度を過度に犠牲にすることなく、反復的 adversarial attacks への頑健性を向上させることができるか。
  • RQ3embedding-based regularization(low-level similarity)はピクセルレベルの摂動に対する頑健性を高めるか。
  • RQ4提案手法は MNIST および CIFAR-10 における white-box と black-box 攻撃設定でどのように機能するか。
  • RQ5cascade training を embedding regularization と組み合わせたとき、反復攻撃への頑健性とクリーンデータの精度とのトレードオフはどうなるか。

主な発見

  • defended ネットワークからの iter_FGSM を用いた cascade adversarial training は未知の反復攻撃に対する頑健性を向上させる一方、1ステップ攻撃に対する頑健性が低下する傾向がある。
  • 低レベルの類似性学習は埋め込みを正則化し、入力の小さな摂動がより近い高レベル表現を生み出すようにして、MNIST のような簡易データセットでの頑健性を高める。
  • Pivot loss と bidirectional embedding loss は敵対的摂動を効果的に正則化し、特に pivot loss が埋め込みの發散を減らすのに寄与する。
  • cascade/ensemble training と組み合わせると、単一手法の adversarial training よりも黒箱攻撃下での最悪ケース頑健性が改善される。
  • 頑健性を高めるとクリーン画像の精度が低下するトレードオフがあり、その効果はデータセットとアーキテクチャ依存である。cascade/source ネットワークを同一の初期化で使用すると転移効果を最大化できることが推奨される。
  • Ensemble と cascade 戦略を low-level similarity learning と組み合わせると CIFAR-10 における反復的 white-box および black-box 攻撃に対する頑健性が向上するが、クリーン精度を完全に保持するには課題が残る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。