[論文レビュー] Adversarial Robustness through Local Linearization
ローカル線形性正則化子(LLR)を導入し、訓練データ近傍での線形損失挙動を促進。CIFAR-10とImageNetにおける標準的な敵対訓練と比較して、より速い堅牢訓練と対抗的な精度の改善を実現。
Adversarial training is an effective methodology for training deep neural networks that are robust against adversarial, norm-bounded perturbations. However, the computational cost of adversarial training grows prohibitively as the size of the model and number of input dimensions increase. Further, training against less expensive and therefore weaker adversaries produces models that are robust against weak attacks but break down under attacks that are stronger. This is often attributed to the phenomenon of gradient obfuscation; such models have a highly non-linear loss surface in the vicinity of training examples, making it hard for gradient-based attacks to succeed even though adversarial examples still exist. In this work, we introduce a novel regularizer that encourages the loss to behave linearly in the vicinity of the training data, thereby penalizing gradient obfuscation while encouraging robustness. We show via extensive experiments on CIFAR-10 and ImageNet, that models trained with our regularizer avoid gradient obfuscation and can be trained significantly faster than adversarial training. Using this regularizer, we exceed current state of the art and achieve 47% adversarial accuracy for ImageNet with l-infinity adversarial perturbations of radius 4/255 under an untargeted, strong, white-box attack. Additionally, we match state of the art results for CIFAR-10 at 8/255.
研究の動機と目的
- 敵対的訓練の高い計算コストを解決する動機付けと課題の提示。
- 訓練データ周囲の損失の局所線形性を強制し、勾配の難読化を防ぐ正則化子を提案する。
- Local Linearity Regularization (LLR) がより速い訓練と強力な攻撃に対するより良いまたは同等の堅牢性を示すことを示す。
- CIFAR-10とImageNetにおけるLLRを、強力なホワイトボックス敵に対して経験的に評価し、ADV、TRADES、CUREなどのベースラインと比較する。
提案手法
- epsilonボール内での1次Taylor展開からの逸脱を捉える局所線形性測度 gamma(epsilon, x) を定義する。
- epsilonボールに制約された gamma(epsilon, x) と内部摂動項 |delta_LL R^T grad_x ell(x)| をペナルティ化するLocal Linearity Regularizer (LLR) を導出する。
- 勾配降下法による delta_LL R の内部最適化を用い、敵対訓練と精神的には似ているが、通常ははるか fewer steps。
- 訓練する頑健なモデルの目的関数 L(D) = E[ ell(x) + lambda*gamma(epsilon, x) + mu*|delta_LL R^T grad ell(x)| ] の組み合わせを提供する。
- gamma(epsilon, x) を最小化することが、敵対的損失を有界にし、勾配難読化を減らすことを主張し、経験的に示す。
実験結果
リサーチクエスチョン
- RQ1訓練例の周囲で損失の局所線形性を強制することで、勾配難読化を減らし強力な敵へ対する堅牢性を向上させられるか。
- RQ2LLR は標準的な敵対訓練よりも訓練が速く、堅牢性を達成またはそれを上回るか。
- RQ3CIFAR-10とImageNet において、強力な untargeted および targeted white-box 攻撃に対して、ADV、TRADES、DENOISE と比較して LLR はどう機能するか。
- RQ4攻撃者が摂動の強さを増したとき、LLR が堅牢性の低下に及ぼす影響はどうなるか。
主な発見
- LLR は強力な白箱攻撃下で、epsilon=8/255 の CIFAR-10 および epsilon=4/255 の ImageNet において最先端の敵対的精度を達成。
- LLR での訓練は、標準的な敵対訓練と比べて ImageNet で最大5x の高速化が報告されている。
- LLR で訓練されたモデルは、攻撃強度が増加しても敵対的精度の劣化がより穏やかで、敵対訓練で訓練されたモデルより良好。
- ImageNet では、LLR は epsilon=4/255 の untargeted 攻撃で 47% の敵対的精度を達成し、いくつかのベースラインを上回る。
- CIFAR-10 では、LLR は epsilon=8/255 で 52.81% の敵対的精度を達成し、同程度の評価のベースラインを満たすか上回る。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。