Skip to main content
QUICK REVIEW

[論文レビュー] Harnessing the Vulnerability of Latent Layers in Adversarially Trained Models

Mayank Singh, Abhishek Sinha|arXiv (Cornell University)|May 13, 2019
Adversarial Robustness in Machine Learning参考文献 34被引用数 23
ひとこと要約

この論文は、入力層に頑健性を示すにもかかわらず、敵対的訓練されたモデルにおける隠れ層が依然として敵対的攻撃に対して極めて脆弱であることを特定している。本稿では、中間特徴層を敵対的訓練することで頑健性を向上させる微調整手法であるLatent Adversarial Training (LAT) を提案し、MNIST、CIFAR-10、CIFAR-100、SVHN、および制限付きImageNetで最先端の敵対的正確度を達成した。敵対的正確度は4–6%向上し、テスト正確度も1%向上した。

ABSTRACT

Neural networks are vulnerable to adversarial attacks -- small visually imperceptible crafted noise which when added to the input drastically changes the output. The most effective method of defending against these adversarial attacks is to use the methodology of adversarial training. We analyze the adversarially trained robust models to study their vulnerability against adversarial attacks at the level of the latent layers. Our analysis reveals that contrary to the input layer which is robust to adversarial attack, the latent layer of these robust models are highly susceptible to adversarial perturbations of small magnitude. Leveraging this information, we introduce a new technique Latent Adversarial Training (LAT) which comprises of fine-tuning the adversarially trained models to ensure the robustness at the feature layers. We also propose Latent Attack (LA), a novel algorithm for construction of adversarial examples. LAT results in minor improvement in test accuracy and leads to a state-of-the-art adversarial accuracy against the universal first-order adversarial PGD attack which is shown for the MNIST, CIFAR-10, CIFAR-100 datasets.

研究の動機と目的

  • 敵対的訓練された深層ニューラルネットワークにおける隠れ層の脆弱性を調査すること。
  • 中間特徴表現に焦点を当てることで、最先端の敵対的訓練モデルの頑健性を向上させること。
  • テスト正確度を損なわずに敵対的頑健性を向上させる新しい訓練技術を開発すること。
  • サブネットワークの脆弱性を狙う、新たな隠れ層ベースの敵対的攻撃(LA)を提案すること。

提案手法

  • LATは、選択された隠れ層 $g_i$ に対して敵対的訓練を適用することで、敵対的訓練済みモデルを微調整する。この際、全体ネットワーク $f$ とサブネットワーク $g_i$ の分類損失を組み合わせた重み付き損失を使用する。
  • ハイパーパrameter $\omega$ を用いて、微調整中に全体ネットワークと隠れ層の損失寄与度をバランスさせる。
  • 隠れ攻撃(LA)は、勾配ベースの最適化を特徴表現に対して行い、最も脆弱な隠れ層を標的として $l_\infty$-有界な敵対的例を生成する。
  • 本手法は、ホワイトボックスおよびブラックボックス攻撃設定の両方で評価され、トランスファー攻撃やバンドイット/SPSA攻撃を含む。
  • アブレーションスタディとして、層の深さ、$\omega$、およびランダムな層選択の感度と一般化性を評価する。
  • 微調整中にPGD、FGSM、および $l_2$-有界PGD攻撃を用いて、異なる攻撃タイプにおける頑健性向上を比較評価する。

実験結果

リサーチクエスチョン

  • RQ1入力層に頑健性があるにもかかわらず、敵対的訓練されたモデルにおける隠れ層は、小さな敵対的摂動に対して依然として脆弱であるか?
  • RQ2中間特徴層の頑健性を向上させることで、深層ニューラルネットワーク全体の敵対的頑健性を顕著に向上させられるか?
  • RQ3隠れ層の深さとハイパーパrameter $\omega$ の選択が、LAT微調整手順のパフォーマンスに与える影響は何か?
  • RQ4隠れ層を標的とする新たな敵対的攻撃(LA)は、PGDなどの標準的攻撃を上回る効果的な敵対的例を生成できるか?
  • RQ5LATは、トランスファー攻撃を含むホワイトボックスおよびブラックボックス攻撃シナリオの両方で頑健性を向上させるか?

主な発見

  • 敵対的訓練されたモデルにおける隠れ層は、入力層が頑健であっても、$l_\infty$-有界な敵対的摂動に対して極めて脆弱である。
  • 標準的な敵対的訓練と比較して、CIFAR-10およびCIFAR-100において、LATは敵対的正確度を約4–6%、テスト正確度を約1%向上させた。
  • ResNet-18の $g_{11}$ 層を $\omega = 0.2$ で微調整し、PGDを用いた敵対的訓練を実施した場合、最良のパフォーマンスが得られた。
  • LATで訓練されたモデルは、秘密のモデルからのトランスファー攻撃やバンドイット/SPSA攻撃を含むブラックボックス攻撃においても、標準的な敵対的訓練を上回る頑健性を示した。
  • 隠れ攻撃(LA)はPGDと同等の敵対的攻撃パフォーマンスを達成し、隠れ層の脆弱性が効果的に利用可能であることを示した。
  • 複数の隠れ層(例:$g_5$、$g_7$、$g_9$、$g_{11}$)からランダムに選択して訓練しても、固定層の微調整と同等のパフォーマンスが得られ、層選択に対して頑健であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。