Skip to main content
QUICK REVIEW

[論文レビュー] Learning to Defend by Learning to Attack

Haoming Jiang, Zhehui Chen|arXiv (Cornell University)|Nov 3, 2018
Adversarial Robustness in Machine Learning参考文献 47被引用数 30
ひとこと要約

この論文は、敵対的例を生成するためのニューラルネットワーク最適化手法を学習する、画期的な学習する学習(L2L)フレームワークを提案する。この敵対的訓練における堅牢性の向上に寄与する。微分可能でエンドツーエンドの最適化ネットワークを介して攻撃プロセスを学習することで、CIFAR-10およびCIFAR-100において最先端の精度と効率性を達成し、既存の敵対的訓練ベースラインを上回る。

ABSTRACT

Adversarial training provides a principled approach for training robust neural networks. From an optimization perspective, adversarial training is essentially solving a bilevel optimization problem. The leader problem is trying to learn a robust classifier, while the follower problem is trying to generate adversarial samples. Unfortunately, such a bilevel problem is difficult to solve due to its highly complicated structure. This work proposes a new adversarial training method based on a generic learning-to-learn (L2L) framework. Specifically, instead of applying existing hand-designed algorithms for the inner problem, we learn an optimizer, which is parametrized as a convolutional neural network. At the same time, a robust classifier is learned to defense the adversarial attack generated by the learned optimizer. Experiments over CIFAR-10 and CIFAR-100 datasets demonstrate that L2L outperforms existing adversarial training methods in both classification accuracy and computational efficiency. Moreover, our L2L framework can be extended to generative adversarial imitation learning and stabilize the training.

研究の動機と目的

  • 敵対的訓練における二段階最適化問題を解決する挑戦に応えること。これは計算的に複雑で最適化が困難である。
  • 強い、転送可能な敵対的摂動を生成するエンドツーエンド最適化手法を学習することで、ニューラルネットワークの敵対的堅牢性を向上させること。
  • FGSM や PGD などの手作業で設計された攻撃手法と比較して、訓練の安定性と効率性を向上させること。
  • 敵対的訓練と生成的敵対的模倣学習(GAIL)を、単一のL2Lフレームワークで統合し、安定性を向上させること。

提案手法

  • 内部問題(敵対的攻撃生成)をニューラルネットワーク最適化手法によって解く微分可能でエンドツーエンドのL2Lフレームワークを提案する。最適化手法は畳み込みネットワークとしてパrameter化される。
  • 攻撃者ネットワークは入力画像とその勾配を入力として受け取り、勾配に基づく最適化を通じて効果的な摂動パターンを学習できる。
  • ロバストな分類器は、攻撃者ネットワークと同時に訓練され、リーダーがフォロワーが生成する敵対的分布下でのテスト損失を最小化する二段階最適化設定で実行される。
  • GAN訓練の技術(例:2時間スケール更新則)を用いて、エンドツーエンドL2Lシステムの訓練を安定化させる。
  • GAILにこのフレームワークを拡張し、同じL2L攻撃者を用いて敵対的デモンストレーションを生成することで、模倣学習におけるポリシー訓練の安定性を向上させる。
  • スキップ接続とアーキテクチャ設計を用いて、勾配情報の保持を図り、攻撃者ネットワークにおける訓練の不安定性を防止する。

実験結果

リサーチクエスチョン

  • RQ1学習された最適化手法は、FGSM や PGD などの手作業で設計された敵対的攻撃手法を上回って、堅牢な敵対的例を生成できるか?
  • RQ2L2Lベースの攻撃者をエンドツーエンドで訓練することで、標準ベンチマークにおけるニューラルネットワークの堅牢性と精度が向上するか?
  • RQ3L2Lフレームワークは、標準GAILがモード崩壊や性能低下を示す模倣学習の訓練を安定化させることができるか?
  • RQ4攻撃者ネットワークの入力に勾配情報を組み込むことで、生成された敵対的例の品質と一般化性能にどのような影響を与えるか?

主な発見

  • 提案されたL2Lフレームワークは、CIFAR-10およびCIFAR-100で最先端のテスト精度を達成し、FGSMおよびPGD攻撃の両方において、既存の敵対的訓練手法を上回った。
  • この手法は優れた計算効率性を示し、各サンプルごとの反復的攻撃生成の必要性を減らすことで、一般化可能な攻撃ポリシーを学習した。
  • GAILの実験では、L2Lベースのアプローチが訓練を安定化させ、標準GAILが専門家の軌道に過剰適合して生じる急激な性能低下を回避した。
  • 攻撃者入力に勾配情報を組み込むことで、訓練の安定性と堅牢性が著しく向上した。これは、この要素を欠いた単純なおよびスリムな攻撃者バージョンが失敗したことで裏付けられた。
  • L2L攻撃者により、サンプル間で共通する構造的パターンが学習され、異なる攻撃タイプにわたって一般化しやすい強力で転送可能な敵対的例が生成された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。