[論文レビュー] CAT: Customized Adversarial Training for Improved Robustness
本稿では、各訓練サンプルに対して摂動レベルとターゲットラベルを動的に調整する、新しい手法であるカスタマイズド adversarial training (CAT) を提案する。動的に変化するインスタンス固有の $\epsilon$ を用い、one-hot ラベルの代わりに信頼度を考慮したソフトラベルを採用することで、Wide ResNet を用いた CIFAR-10 において、SOTA のロバスト精度(PGD 攻撃下で 73%、C&W 攻撃下で 71%)を達成するとともに、高いクリーン精度(93.48%)を維持し、計算コストの増加は最小限に抑えられる。
Adversarial training has become one of the most effective methods for improving robustness of neural networks. However, it often suffers from poor generalization on both clean and perturbed data. In this paper, we propose a new algorithm, named Customized Adversarial Training (CAT), which adaptively customizes the perturbation level and the corresponding label for each training sample in adversarial training. We show that the proposed algorithm achieves better clean and robust accuracy than previous adversarial training methods through extensive experiments.
研究の動機と目的
- すべてのサンプルに同一のグローバルな摂動予算 $\epsilon$ を仮定するという従来の仮定を緩和することで、adversarial training におけるロバスト性と精度のトレードオフを是正すること。
- データインスタンス固有のロバスト性とモデルの信頼度に基づき、アドバーシャル摂動レベルと対応するターゲットラベルをカスタマイズすることで一般化性能を向上させること。
- 標準的な adversarial training と同等の計算効率を維持しつつ、クリーン精度およびロバスト精度の両面で既存手法を顕著に上回る手法を開発すること。
- 適応的ラベル不確実性およびインスタンスごとの $\epsilon$ チューニングによる一般化性能の向上を理論的に裏付けること。
提案手法
- CAT は、各訓練例の決定境界からの距離とモデルの信頼度に基づき、インスタンス固有の摂動予算 $\epsilon_i$ を動的に計算する。
- モデルの不確実性が高まる(特に決定境界付近)と、one-hot ラベルの代わりにソフトラベル(例:$[0.5, 0.5]$)を用いる信頼度を考慮したラベル適応戦略を採用する。
- インスタンス固有の $\epsilon_i$ と対応する適応的ラベルを用いた最小最大化最適化として adversarial training を定式化することで、クリーン精度を損なうことなくロバスト性を向上させる。
- 不確実性を損失関数に統合できる微分可能で微分可能なラベル適応メカニズムを採用し、エンド・ツー・エンドの学習を可能にする。
- 各サンプルごとに適応的ステップサイズを用いた PGD 攻撃を用いて adversarial examples を生成し、効率を維持する。
- 適応的 $\epsilon$ とラベルスムージング(LA)を統合されたフレームワーク内で統合的に最適化する。
実験結果
リサーチクエスチョン
- RQ1適応的かつインスタンス固有の摂動レベルは、adversarial training におけるロバスト精度およびクリーン精度の両方を向上させ得るか?
- RQ2one-hot ラベルを信頼度に基づくソフトラベルに置き換えることで、決定境界の一般化性能が向上するか?
- RQ3摂動レベルとラベルを個々のサンプルにカスタマイズする手法は、標準的な adversarial training や既存の適応的手法を上回る性能を示せるか?
- RQ4CAT の性能向上は、最適化の改善によるものか、よりロバストな決定境界によるものか?
- RQ5CAT はブラックボックス転送攻撃における勾配の遮断(obfuscated gradients)問題を緩和するか?
主な発見
- CIFAR-10 において Wide ResNet を用いた CAT は、PGD 攻撃下で 73% のロバスト精度、C&W 攻撃下で 71% のロバスト精度を達成し、以前の SOTA(58.6% および 56.8%)を顕著に上回る。
- CAT のクリーン精度は 93.48% であり、他の adversarial training 手法(全般に 91.34% 未満)と比較して顕著に高い。
- CAT は標準的な adversarial training と同等の計算効率を維持し、わずかなオーバーヘッドしか発生しない。
- CAT で訓練されたモデルの損失関数の形状は、標準的および他の adversarial training 手法よりも低く滑らかであることが示され、より優れた一般化性能を示している。
- CAT は強力な転送ロバスト性を示し、Wide ResNet においてブラックボックス転送攻撃下でも 88.66% の精度を達成し、標準的な adversarial training や TRADES を上回る。
- アブレーションスタディの結果、適応的 $\epsilon$ とラベル適応の両方の組み合わせが不可欠であることが確認され、単体では同等の性能向上が得られない。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。