[論文レビュー] Provable defenses against adversarial examples via the convex outer adversarial polytope
この論文は、敵対的ポリトープの凸外部境界を最適化することで、ノルム制約付き敵対摂動に対して証明可能な頑健性を持つ深い ReLU 分類器を訓練する方法を提案する。デュアルネットワークとして実装され、効率的な訓練を可能にする。MNIST などのデータセットで認定頑健性を達成し、複数のタスクで従来の境界を上回る。
We propose a method to learn deep ReLU-based classifiers that are provably robust against norm-bounded adversarial perturbations on the training data. For previously unseen examples, the approach is guaranteed to detect all adversarial examples, though it may flag some non-adversarial examples as well. The basic idea is to consider a convex outer approximation of the set of activations reachable through a norm-bounded perturbation, and we develop a robust optimization procedure that minimizes the worst case loss over this outer region (via a linear program). Crucially, we show that the dual problem to this linear program can be represented itself as a deep network similar to the backpropagation network, leading to very efficient optimization approaches that produce guaranteed bounds on the robust loss. The end result is that by executing a few more forward and backward passes through a slightly modified version of the original network (though possibly with much larger batch sizes), we can learn a classifier that is provably robust to any norm-bounded adversarial attack. We illustrate the approach on a number of tasks to train classifiers with robust adversarial guarantees (e.g. for MNIST, we produce a convolutional classifier that provably has less than 5.8% test error for any adversarial attack with bounded $\ell_\infty$ norm less than $ε= 0.1$), and code for all experiments in the paper is available at https://github.com/locuslab/convex_adversarial.
研究の動機と目的
- 対adversarial perturbations に対する証明可能な頑健性を備えた分類器の必要性を動機づけ、定量化する。
- 深層 ReLU ネットワークの adversarial polytope の凸外部境界(凸緩和)を導入する。
- 訓練中に頑健な損失境界を効率的に計算するデュアルネットワーク手法を開発する。
- 未見データに対して証明可能な頑健な分類器と攻撃検出を提供する訓練目的を設計する。
提案手法
- k 層の ReLU ネットワークに対する adversarial polytope Z_epsilon(x) を定義する。
- ReLU 制約を凸上限関数で置換して、 tractable な外部境界 tilde{Z}_epsilon(x) を形成する。
- 得られた線形計画のデュアル形を導出して、ネットワークリンクのような逆伝播を提供し、J_epsilon(x, g_theta) の境界を得る。
- デュアル構造を活用する逆伝播ベースのアルゴリズム(アルゴリズム 1)により活性化境界 ell と u を計算する。
- 定理 2(L(-J_epsilon(...), y))を用いて、epsilon ball 内での最悪ケース損失を上界する頑健な損失で訓練する。
- Corollaries 1 および 2 による認定頑健性の保証を提供し、決定境界への epsilon 距離を式 17 で計算する。
実験結果
リサーチクエスチョン
- RQ1ノルム制約付き敵対的摂動に対して証明可能な頑健性を持つ深い ReLU ネットワークを訓練することは可能か。
- RQ2デュアル形式を介して標準のバックプロパゲーションに似た厳密な頑健性損失境界を効率的に計算できるか。
- RQ3MNIST、Fashion-MNIST、HAR、SVHN において、非頑健な基準法や他の頑健法と比較して、実証的な頑健性保証はどの程度得られるか。
主な発見
| 問題 | ロバスト | ε | テスト誤差 | FGSM 誤差 | PGD 誤差 | ロバスト誤差の境界 |
|---|---|---|---|---|---|---|
| MNIST | × | 0.1 | 1.07% | 50.01% | 81.68% | 100% |
| MNIST | √ | 0.1 | 1.80% | 3.93% | 4.11% | 5.82% |
| Fashion-MNIST | × | 0.1 | 9.36% | 77.98% | 81.85% | 100% |
| Fashion-MNIST | √ | 0.1 | 21.73% | 31.25% | 31.63% | 34.53% |
| HAR | × | 0.05 | 4.95% | 60.57% | 63.82% | 81.56% |
| HAR | √ | 0.05 | 7.80% | 21.49% | 21.52% | 21.90% |
| SVHN | × | 0.01 | 16.01% | 62.21% | 83.43% | 100% |
| SVHN | √ | 0.01 | 20.38% | 33.28% | 33.74% | 40.67% |
- MNIST では、ε=0.1 のときロバスト検証誤差が 5.82% のモデルが得られる一方、非ロバストモデルはロバスト境界が 100% で、攻撃時の実誤差がはるかに大きい。
- ロバストモデルは FGSM および PGD の誤差を大幅に減らす(それぞれ 3.93%、4.11%)。標準モデルは 50.01%、81.68%)。
- データセット全体で、PGD ベースの頑健性能よりロバスト境界は著しく厳密(例:Fashion-MNIST ロバスト誤差 34.53% 対 PGD 31.63%)。(同程度のオーダー内)
- このアプローチは畳み込みネットワークや中規模問題にもスケールし、頑健性を保証できる最大クラスの検証済みネットワークを達成(例:MNIST)
- この手法は敵対検出に対して偽陰性ゼロを提供:境界が頑健性を認定すれば、その例は epsilon 内で敵対的にはなり得ない。
- デュアルネットワークは単一の逆伝播パスで頑健境界を効率的に計算でき、従来の LP ソルバーを回避する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。