[論文レビュー] Attacks Which Do Not Kill Training Make Adversarial Learning Stronger
Friendly Adversarial Training(FAT)を提案します。これはearly-stopped PGDを介して友好的な敵対的データ(誤分類サンプルの中で最も敵対度が小さいデータ)を使用し、自然精度を損なうことなくロバスト性を向上させます。理論上の上界と経験的証拠を提供し、標準的な一般化を害することなくロバスト性を得られることを示します。
Adversarial training based on the minimax formulation is necessary for obtaining adversarial robustness of trained models. However, it is conservative or even pessimistic so that it sometimes hurts the natural generalization. In this paper, we raise a fundamental question---do we have to trade off natural generalization for adversarial robustness? We argue that adversarial training is to employ confident adversarial data for updating the current model. We propose a novel approach of friendly adversarial training (FAT): rather than employing most adversarial data maximizing the loss, we search for least adversarial (i.e., friendly adversarial) data minimizing the loss, among the adversarial data that are confidently misclassified. Our novel formulation is easy to implement by just stopping the most adversarial data searching algorithms such as PGD (projected gradient descent) early, which we call early-stopped PGD. Theoretically, FAT is justified by an upper bound of the adversarial risk. Empirically, early-stopped PGD allows us to answer the earlier question negatively---adversarial robustness can indeed be achieved without compromising the natural generalization.
研究の動機と目的
- 標準的な敵対的訓練における自然な一般化と敵対的ロバスト性のトレードオフの必要性を問う。
- 最も敵対度が小さく、自信を持って誤分類されたデータを用いてモデルを更新する友好的敵対訓練(FAT)を導入する。
- FATの adversarial risk に対する上界を通じた理論的正当性を提供する。
- early-stopped PGDがFATを効率的に実装し、標準精度とロバスト精度の両方を向上させることを示す。
- FATが訓練中のより大きな摂動予算(epsilon)を可能にし、性能を維持または向上させることを示す。
提案手法
- FATを、マージン制約 rho を持つ誤分類された敵対的サンプルで定義される友好的敵対データ上の損失を最小化する形式で定式化する。
- 標準的な敵対訓練における内側の最大化を、信頼マージンを満たし損失を最小化する敵対サンプル上の制約付き最小化に置き換える。
- τ で制御される、小さな損失の誤分類サンプルを選択する、または大きな損失の正しく分類されたサンプルを選択する初期停止付きPGDアルゴリズムであるPGD-K-τを開発し、従来のPGD-Kを一般化する。
- 標準項とロバスト項の両方を取り入れ、マージンパラメータ ρ を用いた敵対的リスクの厳密な上界を証明する。
- 既存の防御法(例:TRADES、MART)をFAT変種へ適応できる実用的なFATアルゴリズムを提供する。
- CIFAR-10とSVHNでResNet-18、Small CNN、Wide ResNetアーキテクチャを用いてFATを経験的に検証し、さまざまな攻撃下で標準精度とロバスト精度を比較する。
実験結果
リサーチクエスチョン
- RQ1敵対的訓練において、自然な一般化を犠牲にすることなく敵対的ロバスト性を達成できるか?
- RQ2誤分類サンプルの内部にある友好的な敵対データを用いることで、訓練の安定性と一般化が向上するか?
- RQ3early-stopped PGD (PGD-K-τ) が訓練ダイナミクスとモデルのロバスト性にどう影響するか?
- RQ4FATを敵対的リスクの上界アプローチとして正当化する理論的保証とは何か?
- RQ5FATは既存の敵対訓練法(TRADES、MART)と互換性があり、性能向上をもたらすか?
主な発見
- FATは標準的(自然な)テスト精度を向上させつつ、攻撃を横断して競争力のあるロバスト精度を維持する。
- Early-stopped PGD (PGD-K-τ) は敵対データのクロスオーバー混合を緩和し、訓練中のロバスト性を段階的に強化する。
- FATは従来の敵対訓練とは異なり、一般化を害することなく訓練時の摂動予算 ε_train を大きくできる。
- 敵対的リスクの理論的上界は、誤分類された敵対データと信頼マージンを組み合わせることでFATがリスクを低減できることを示す。
- 既存の手法(例:TRADES向けのFAT、MART向けのFAT)から派生させることができ、実用的な適用手段を提供する。
- 経験的な結果は、コントロールされた τ の値(例:τ が {0,1,2,3} の場合)で標準とロバストの性能のバランスを取りながら、ロバスト性を高められることを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。