[論文レビュー] Confidence-Calibrated Adversarial Training: Generalizing to Unseen Attacks
CCAT は敵対的な例に対する予測を低信頼度に偏らせ、信頼度しきい値を用いてそれらを拒否することで、訓練時の脅威モデルを超える未知の攻撃に対する頑健性を可能にする。
Adversarial training yields robust models against a specific threat model, e.g., $L_\infty$ adversarial examples. Typically robustness does not generalize to previously unseen threat models, e.g., other $L_p$ norms, or larger perturbations. Our confidence-calibrated adversarial training (CCAT) tackles this problem by biasing the model towards low confidence predictions on adversarial examples. By allowing to reject examples with low confidence, robustness generalizes beyond the threat model employed during training. CCAT, trained only on $L_\infty$ adversarial examples, increases robustness against larger $L_\infty$, $L_2$, $L_1$ and $L_0$ attacks, adversarial frames, distal adversarial examples and corrupted examples and yields better clean accuracy compared to adversarial training. For thorough evaluation we developed novel white- and black-box attacks directly attacking CCAT by maximizing confidence. For each threat model, we use $7$ attacks with up to $50$ restarts and $5000$ iterations and report worst-case robust test error, extended to our confidence-thresholded setting, across all attacks.
研究の動機と目的
- 単一の脅威モデル(例:L_infinity)を超えて一般化する頑健な分類器を動機づける。
- 未知の攻撃へ外挿を可能にするために、敵対的な例に対する過剰な自信を抑える学習目的を開発する。
- クリーンな精度を犠牲にせず頑健性を維持するため、信頼度しきい値による拒否オプションを可能にする。
提案手法
- CCAT を導入し、見えるボール内のクリーン/敵対的には one-hot、敵対的例には uniform 分布の凸結合をターゲットラベルとして訓練する。
- 訓練中に適応的な攻撃を用い、真のクラス以外の任意のクラスで信頼度を最大化して、挑戦的な敵対的例を生成する(Eq. 4)。
- 摂動ノルムが大きくなるにつれて 1 から 0 へ減衰する信頼度依存遷移 lambda(delta) を定義し、距離が大きくなるほどターゲット分布がより一様になるようにする(Eq. 6)。
- 訓練ε以上の摂動に対して lambda を 0 にするパワー遷移方式を強制し、訓練ボールを超えた外挿を促進する。
- 標準の AT セットアップと同様に、バッチごとにクリーンと敵対的例を 50/50 の混合で訓練し、頑健性と精度のバランスを取る。
- 信頼度しきい値を用いた指標で頑健性を評価し、CCAT の枠組みを含むように信頼度を明示的に最大化する適応的なホワイト/ブラックボックス攻撃を開発する。
実験結果
リサーチクエスチョン
- RQ1CCATによる信頼度キャリブレーションは、訓練時に存在しなかった未知の敵対的脅威に対する頑健性を可能にするか?
- RQ2訓練ボール内の敵対的例に低信頼度を強制することは、より大きな摂動や他の L_p ノルム、破損した入力への外挿を改善するか?
- RQ3拒否オプションが許容される場合、標準的な敵対的訓練および TRADES と比較して CCAT の性能はどうか?
- RQ4テスト時に信頼度しきい値を適用してクリーン精度を犠牲にすることなく頑健性を達成できるか?
主な発見
- CCAT は標準 AT と比較して、未知の攻撃(異なる L_p ノルム、より大きな摂動)に対する頑健性を向上させ、クリーン精度を維持または向上させる。
- 信頼度しきい値を用いた CCAT の下で、敵対的フレーム、遠隔の敵対的例、および破損入力に対する頑健性が拡張される。
- 信頼度しきい値による拒否オプションは低信頼度の敵対的入力を破棄することを可能にし、訓練脅威モデルを超えた頑健性に寄与する。
- 適応的で信頼度を最大化する攻撃を用いて CCAT の耐久性を評価する。例ごとの最悪ケース評価において CCAT は依然として壊しにくい。
- MNIST、SVHN、CIFAR-10、および破損したバリアントにわたる実験は、AT、TRADES、および複数脅威モデル訓練に対する CCAT の利点を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。