[論文レビュー] Certified Adversarial Robustness with Additive Noise
本論文は敵対的ロバストネスを加法的ガウスノイズに対するロバストネスと結びつけ、テスト時にノイズを追加し、安定性トレーニングを用いて頑健性の境界を引き締めるスケーラブルな認定防御を提案する。
The existence of adversarial data examples has drawn significant attention in the deep-learning community; such data are seemingly minimally perturbed relative to the original data, but lead to very different outputs from a deep-learning algorithm. Although a significant body of work on developing defensive models has been considered, most such models are heuristic and are often vulnerable to adaptive attacks. Defensive methods that provide theoretical robustness guarantees have been studied intensively, yet most fail to obtain non-trivial robustness when a large-scale model and data are present. To address these limitations, we introduce a framework that is scalable and provides certified bounds on the norm of the input manipulation for constructing adversarial examples. We establish a connection between robustness against adversarial perturbation and additive random noise, and propose a training strategy that can significantly improve the certified bounds. Our evaluation on MNIST, CIFAR-10 and ImageNet suggests that the proposed method is scalable to complicated models and large data sets, while providing competitive robustness to state-of-the-art provable defense methods.
研究の動機と目的
- ノルム制約された敵対的摂動の下で深層ネットワークの認定済み頑健性に対するスケーラブルなアプローチを動機づけ、 formalizeする。
- Rényi発散を介して敵対的ロバストネスと加法的ランダムノイズに対するロバストネスの関係を確立する。
- 自然精度を損なうことなく認定頑健性の境界を改善する訓練戦略を開発する。
- MNIST, CIFAR-10, ImageNetにおける経験的評価を提供し、証明可能性と経験的頑健性の競合力を示す。
提案手法
- テスト時に入力にガウスノイズを加えることで確率的分類器を導入し、Rényi発散を用いてl2摂動に対する認定頑健性境界を導出する。
- Algorithm 1 (Certified Robust Classifier) を提供し、予測クラスを高い確率で保持する摂動サイズの上限 L を計算する。
- ノイズ下の出力分布を敵対的頑健性に結びつける境界を、Lemma 1とTheorem 2(Laplacianノイズのl1の場合はTheorem 3)を用いて証明する。
- STN(Stability Training with Noise)を用いて頑健性境界を向上させる。これはガウシアン摂動に対してモデルを安定にするよう正則化する。
- オプションとして Adversarial Logit Pairing および stability aims を用いて、勾配マスキングに頼らずノイズ下での精度を改善する。
- MNIST, CIFAR-10, ImageNet における STN とノイズパラメータの実験を行い、PixelDP および TRADES と比較する。
実験結果
リサーチクエスチョン
- RQ1ガウシアンノイズによるランダム化平滑化で正しいクラスを維持できる摂動はどれくらい大きくなり得るか?
- RQ2テスト時にノイズを加えることと安定性トレーニングを組み合わせて、大規模なネットワークおよびデータセットにスケーリング可能な認定頑健性境界を提供できるか?
- RQ3導出された境界は理論と実践の両方で、既存の証明可能な防御法(例:LPベースや差分プライバシーに基づく方法)とどう比較されるか?
- RQ4ノイズレベルが自然精度とさまざまな攻撃強度下の頑健性に与える影響は何か?
主な発見
| Model | MNIST Robust Bound | MNIST Natural Accuracy | CIFAR-10 Robust Bound | CIFAR-10 Natural Accuracy |
|---|---|---|---|---|
| [17] (Single) | 1.58 (43.5%) | 88.2% | 36.00 (53.0%) | 61.2% |
| [17] (Cascade) | 1.58 (74.6%) | 81.4% | 36.00 (58.7%) | 68.8% |
| STN | 1.58 (69.0%) | 98.9% | 36.00 (65.6%) | 80.5% |
- l2摂動に対する認定境界 L は、テスト時にガウシアンノイズを加える任意の分類器に対して導出される。
- ノイズ下で上位2クラスの確率 p(1) と p(2) の間にギャップが大きいほど、境界は改善され、ノイズレベル sigma が最適化されると境界が改善する。
- Stability Training with Noise (STN) は、計算負荷を大きく増やすことなく認定境界と経験的頑健性を大幅に改善する。
- MNIST, CIFAR-10, ImageNet の実験は、最先端の証明可能防御と競合する性能と強い攻撃下での頑健性を示す。
- STN は強い攻撃下でも一部の証明可能防御より自然精度を高く維持し、堅牢性も競合的。
- この枠組みは、既存のモデルと統合し、適応的な攻撃に対して評価できるスケーラブルなアプローチを示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。