[論文レビュー] Adversarial Weight Perturbation Helps Robust Generalization
本論文は Adversarial Weight Perturbation (AWP) を導入します。これはモデルの重みを敵対的に摂動させて重みの損失の風景を平坦化し、敵対的訓練におけるロバスト性を向上させる正則化手法です。
The study on improving the robustness of deep neural networks against adversarial examples grows rapidly in recent years. Among them, adversarial training is the most promising one, which flattens the input loss landscape (loss change with respect to input) via training on adversarially perturbed examples. However, how the widely used weight loss landscape (loss change with respect to weight) performs in adversarial training is rarely explored. In this paper, we investigate the weight loss landscape from a new perspective, and identify a clear correlation between the flatness of weight loss landscape and robust generalization gap. Several well-recognized adversarial training improvements, such as early stopping, designing new objective functions, or leveraging unlabeled data, all implicitly flatten the weight loss landscape. Based on these observations, we propose a simple yet effective Adversarial Weight Perturbation (AWP) to explicitly regularize the flatness of weight loss landscape, forming a double-perturbation mechanism in the adversarial training framework that adversarially perturbs both inputs and weights. Extensive experiments demonstrate that AWP indeed brings flatter weight loss landscape and can be easily incorporated into various existing adversarial training methods to further boost their adversarial robustness.
研究の動機と目的
- 敵対的訓練における入力損失の平坦化を越えた、堅牢な一般化の動機づけ。
- 重み損失風景の平坦さと堅牢な一般化ギャップの関係を特徴づける。
- 二重摂動(入力と重み)を介して重み損失風景を明示的に正則化する AW P を提案・検証する。
- 既存の敵対的訓練手法に組み込んだ場合の AW P の適合性と堅牢性の利得を実証する。
提案手法
- PGD によって生成されたオンラインの敵対的サンプルを用いて重み損失風景を特徴づける。
- 平坦な重み損失風景とより小さな堅牢な一般化ギャップとの相関を示す。
- AWP を、γ||w_l|| の制御領域内で重み摂動効果を最大化するよう提案する。
- 敵対的入力摂動と敵対的重み摂動の間で交互に最適化する二重摂動目的関数を最適化する。
- 摂動されたモデル f_{w+v} を更新し、その後中心となる重み w を適 accordingly 更新するアルゴリズム(AT-AWP)を提供する。
- AWP を他の敵対的訓練フレームワーク(TRADES、MART、RST)へ最小限のオーバーヘッドで拡張する。
実験結果
リサーチクエスチョン
- RQ1敵対的訓練の下で重み損失風景の平坦さは堅牢な一般化ギャップと相関するか。
- RQ2敵対的 weight 摂動による重み損失風景の明示的正則化は、既存の AT 手法と組み合わせた場合に堅牢性を向上させるか。
- RQ3AWP は複数のデータセット・アーキテクチャ・脅威モデルに対して適合性と有益性を持つか。
- RQ4AWP はランダムな重み摂動や他の正則化と比べて、敵対的ロバスト性を改善するか。
主な発見
| 脅威モデル | 手法 | SVHN Best | SVHN Last | CIFAR-10 Best | CIFAR-10 Last | CIFAR-100 Best | CIFAR-100 Last |
|---|---|---|---|---|---|---|---|
| L_infinity | AT | 53.36 | 44.49 | 52.79 | 44.44 | 27.22 | 20.82 |
| L_infinity | AT-AWP | 59.12 | 55.87 | 55.39 | 54.73 | 30.71 | 30.28 |
| L2 | AT | 66.87 | 65.03 | 69.15 | 65.93 | 41.33 | 35.27 |
| L2 | AT-AWP | 72.57 | 67.73 | 72.69 | 72.08 | 45.60 | 44.66 |
- より平坦な重み損失風景は、敵対的訓練手法の間・全体でより小さな堅牢な一般化ギャップと相関する。
- Adversarial Weight Perturbation (AWP) は重み損失風景を明示的に平坦化し、AT、TRADES、MART、RST へ組み込んだ場合に堅牢性が向上する。
- AWP は CIFAR-10/ SVHN/CIFAR-100 および L_infty および L2 の脅威モデルで一貫してテストの堅牢性を改善する。
- AWP はベースライン AT や同等の手法を上回る改善を実現し、AutoAttack を含む白箱・黒箱攻撃を通じて利得を示す。
- アブレーション研究は、小さく相対的な重み摂動(γ が約 1e-3 から 5e-3) が風景を効果的に平坦化し、堅牢な一般化ギャップを減らすことを示している。
- ランダムな重み摂動と比較して、AWP はより大きな敵対的損失の増加と、より小さな摂動量でのより良い堅牢性を提供する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。