Skip to main content
QUICK REVIEW

[論文レビュー] Understanding and Improving Ensemble Adversarial Defense

Yian Deng, Tingting Mu|arXiv (Cornell University)|Oct 27, 2023
Adversarial Robustness in Machine Learning被引用数 8
ひとこと要約

本論文は、アンサンブル対抗的防御の新しい誤り理論を提案し、グローバル対抗例を分配するインタラクティブなグローバル対抗訓練(iGAT)を導入してアンサンブルの頑健性を向上させ、白箱および黒箱攻撃下でCIFAR-10/100に対して最大約17%の性能向上を達成します。

ABSTRACT

The strategy of ensemble has become popular in adversarial defense, which trains multiple base classifiers to defend against adversarial attacks in a cooperative manner. Despite the empirical success, theoretical explanations on why an ensemble of adversarially trained classifiers is more robust than single ones remain unclear. To fill in this gap, we develop a new error theory dedicated to understanding ensemble adversarial defense, demonstrating a provable 0-1 loss reduction on challenging sample sets in an adversarial defense scenario. Guided by this theory, we propose an effective approach to improve ensemble adversarial defense, named interactive global adversarial training (iGAT). The proposal includes (1) a probabilistic distributing rule that selectively allocates to different base classifiers adversarial examples that are globally challenging to the ensemble, and (2) a regularization term to rescue the severest weaknesses of the base classifiers. Being tested over various existing ensemble adversarial defense techniques, iGAT is capable of boosting their performance by increases up to 17% evaluated using CIFAR10 and CIFAR100 datasets under both white-box and black-box attacks.

研究の動機と目的

  • 敵対的に訓練された分類器のアンサンブルが単一モデルよりも頑健になり得る理由を動機づけ、形式化する。
  • 難易度の高いサンプル集合に焦点を当てたアンサンブル対抗防御の誤り理論的枠組みを開発する。
  • iGATを提案し、グローバル対抗例を分散させることでアンサンブルを強化し、誤分類正則化を導入する。
  • CIFAR-10/100における既存のアンサンブル防御に対して、多様な攻撃下で最大約17%の実証的改善を示す。

提案手法

  • 2-base MLPアンサンブルに対する平均または最大結合器下での頑健性向上を示す誤り低減定理(定理4.1)を証明する。
  • 難易度の高い近决定領域の例を捉えるための曖昧な対と曖昧な対集合を定義する(定義4.3、仮定4.2および4.4)。
  • Eq. 13とEq. 14に示すハードまたはソフト分配ルールを介してグローバルに生成された対抗例をベース分類器に分配するiGATを導入する。
  • 最も誤分類されている出力を狙って弱点を強化する正則化項LRを追加する(Eq. 15)。
  • 元のアンサンブル損失にグローバル対抗損失(α)と誤分類正則化項(β)を組み合わせた強化訓練目的をEq. (16)のように提供する。
  • 既存のアンサンブル防御(ADP、CLDL、DVERGE、SoE、GAL、TRS)との適合性を示し、実験にはPGDベースの対抗訓練を適用する。

実験結果

リサーチクエスチョン

  • RQ1敵対的設定において、敵対的訓練済み分類子のアンサンブルが単一モデルよりも証明可能な頑健性優位を示す理由は何か。
  • RQ2グローバルに生成された対抗例の principled な分布と狙いを定めた正則化が、アンサンブル内の基礎分類器を意味的に改善できるか。
  • RQ3iGATは白箱・黒箱攻撃の両方でCIFAR-10/100に対する最新のアンサンブル防御にどれだけの改善をもたらすか。

主な発見

  • 誤り理論により、難しいサンプル集合に対するアンサンブル防御の0-1損失低減が証明可能である。
  • iGATは主要なアンサンブル手法に適用した場合に実際の頑健性向上をもたらし(CIFAR-10/100で最大17%の改善)。
  • 分散されたグローバル対抗例と正則化項は、アンサンブル内で最も弱い基礎分類器を効果的に対処する。
  • 白箱および黒箱攻撃の両方の下で、複数のアンサンブルバックボーンと集約器(平均・最大)で実証的な改善を示す。
  • 本アプローチはADP、CLDL、DVERGE、SoE、GAL、TRSを含む複数の既存アンサンブル防御と互換性がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。