[論文レビュー] Improving Adversarial Robustness of Ensembles with Diversity Training
この論文は、Gradient Alignment Loss (GAL) を用いて相関のない損失勾配を持つアンサンブルを訓練し、共有された敵対サブ空間を減らして転移ベースの頑健性を高め、任意で Ensemble Adversarial Training と組み合わせる手法を導入します。
Deep Neural Networks are vulnerable to adversarial attacks even in settings where the attacker has no direct access to the model being attacked. Such attacks usually rely on the principle of transferability, whereby an attack crafted on a surrogate model tends to transfer to the target model. We show that an ensemble of models with misaligned loss gradients can provide an effective defense against transfer-based attacks. Our key insight is that an adversarial example is less likely to fool multiple models in the ensemble if their loss functions do not increase in a correlated fashion. To this end, we propose Diversity Training, a novel method to train an ensemble of models with uncorrelated loss functions. We show that our method significantly improves the adversarial robustness of ensembles and can also be combined with existing methods to create a stronger defense.
研究の動機と目的
- 深層ネットの転移ベースの(ブラックボックス)攻撃に対する堅牢な展開を動機づける。
- アンサンブル全体における敵対的サブ空間の重なりを定量化する微分可能な指標を提案する。
- 多様なアンサンブルを訓練する正則化項として Gradient Alignment Loss (GAL) を導入する。
- DivTrain が共有敵対サブ空間を低減し頑健性を改善することを示す。既存の防御と組み合わせることで効果を高められる可能性がある。
- DivTrain を他の防御と組み合わせるとより強力な保護を得られることを示す。
提案手法
- 敵対的サブ空間とアンサンブルの転送性脅威モデルを定義する。
- 滑らかな一貫性の近似を用いてアンサンブルの各メンバー間の勾配整合を定量化する Gradient Alignment Loss (GAL) を提案する。
- GAL を正則化項として使用してアンサンブルを訓練する:Loss = 平均クロスエントロピー + lambda * GAL。
- GAL の計算における勾配の希薄性を緩和するために Leaky-ReLU を用いる。
- 複数のブラックボックス攻撃(FGSM、R-FGSM、I-FGSM、MI-FGSM、PGD-CW)に対して MNIST および CIFAR-10 で DivTrain を評価する。
- DivTrain が勾配のコヒーレンスを低下させ、敵対サブ空間の重なりを減らすことを示し、Ensemble Adversarial Training と組み合わせると頑健性が向上する。
実験結果
リサーチクエスチョン
- RQ1アンサンブルメンバーの敵対サブ空間の重なりを減らすことは、転移ベースの攻撃に対する頑健性を改善するのか?
- RQ2勾配整合 (GAL) を微分可能な正則化として用いて、多様なアンサンブルを訓練できるのか?
- RQ3DivTrain は Ensemble Adversarial Training のような既存の防御とどのように相互作用するのか?
- RQ4GAL の勾配希薄性に対する活性化の選択はどのように緩和するのか?
主な発見
| モデル | ターゲット (T) | クリーン | FGSM | R-FGSM | I-FGSM | MI-FGSM | PGD-CW |
|---|---|---|---|---|---|---|---|
| Conv-3 (mnist) | $T_{Base}$ | 99.4 | 91.4 / 9.7 | 92.0 / 9.7 | 86.1 / 0.7 | 85.7 / 2.6 | 92.3 / 9.7 |
| Conv-3 (mnist) | $T_{Div}$ | 99.2 | 97.1 / 34.3 | 97.8 / 30.6 | 97.6 / 20.4 | 96.9 / 16.9 | 97.1 / 35.9 |
| Conv-3 (mnist) | $T_{Ens}$ | 99.4 | 98.9 / 61.3 | 99.0 / 42.5 | 99.0 / 56.3 | 98.8 / 45.9 | 98.8 / 44.8 |
| Conv-3 (mnist) | $T_{Ens+Div}$ | 99.3 | 98.9 / 73.7 | 99.0 / 79.3 | 99.0 / 87.0 | 98.8 / 61.4 | 98.2 / 71.3 |
| Conv-4 (cifar-10) | $T_{Base}$ | 85.1 | 14.1 / 7.8 | 16.8 / 3.2 | 9.5 / 2.8 | 9.0 / 7.4 | 8.8 / 5.9 |
| Conv-4 (cifar-10) | $T_{Div}$ | 82.4 | 45.3 / 14.7 | 56.0 / 15.1 | 51.4 / 5.6 | 35.0 / 7.5 | 43.9 / 11.6 |
| Conv-4 (cifar-10) | $T_{Ens}$ | 82.9 | 64.6 / 43.2 | 70.5 / 54.9 | 69.4 / 54.3 | 59.9 / 38.6 | 62.1 / 42.8 |
| Conv-4 (cifar-10) | $T_{Ens+Div}$ | 80.5 | 68.5 / 54.2 | 72.0 / 66.7 | 72.4 / 66.3 | 66.9 / 55.4 | 66.9 / 54.3 |
| Resnet-20 (cifar-10) | $T_{Base}$ | 88.9 | 28.8 / 13.1 | 25.7 / 7.1 | 8.6 / 3.2 | 10.2 / 6.3 | 18.7 / 10.2 |
| Resnet-20 (cifar-10) | $T_{Div}$ | 84.0 | 58.4 / 32.4 | 64.3 / 23.9 | 67.7 / 44.2 | 50.0 / 11.7 | 53.2 / 25.4 |
| Resnet-20 (cifar-10) | $T_{Ens}$ | 87.9 | 70.9 / 44.3 | 77.2 / 50.9 | 79.6 / 65.5 | 66.5 / 30.5 | 65.9 / 37.8 |
| Resnet-20 (cifar-10) | $T_{Ens+Div}$ | 84.7 | 74.9 / 50.7 | 78.1 / 57.6 | 79.7 / 71.5 | 74.1 / 47.4 | 71.3 / 46.3 |
| Mix (cifar-10) | $T_{Base}$ | 89.7 | 27.9 / 9.6 | 30.9 / 6.1 | 13.9 / 3.1 | 10.6 / 5.9 | 26.0 / 7.6 |
| Mix (cifar-10) | $T_{Div}$ | 88.2 | 55.8 / 23.2 | 65.1 / 25.0 | 61.8 / 19.7 | 42.4 / 7.1 | 55.9 / 22.2 |
| Mix (cifar-10) | $T_{Ens}$ | 87.4 | 72.6 / 49.6 | 76.9 / 58.4 | 77.1 / 61.4 | 66.9 / 27.9 | 70.0 / 47.1 |
| Mix (cifar-10) | $T_{Ens+Div}$ | 86.4 | 73.4 / 52.2 | 77.9 / 64.1 | 77.2 / 67.5 | 69.2 / 39.7 | 71.8 / 50.4 |
- GAL で訓練された多様なアンサンブルは、評価されたすべての攻撃においてベースラインのアンサンブルより対敵例精度が高い。
- DivTrain を Ensemble Adversarial Training と組み合わせると、いずれかの方法単独よりも頑健性がさらに向上する。
- DivTrain および DivTrain+EnsAdvTrain は、ベースライン/Ens アンサンブルよりもコヒーレンス(勾配整合性)分布が低く、敵対サブ空間の重なりが減少している。
- GAAS 分析は、DivTrain がアンサンブルの敵対サブ空間の次元性を低減し、複数の直交する敵対方向を見つける可能性を低下させることを示す。
- Leaky-ReLU の使用により GAL の逆伝搬を妨げる勾配希薄性の問題を緩和する。
- DivTrain は lambda によって制御されるトレードオフを持ちつつ、クリーン精度を競合的に維持する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。