[論文レビュー] Parseval Networks: Improving Robustness to Adversarial Examples
Parsevalネットワークは、Parsevalのタイトフレームと凸結合を維持することにより層ごとのリプシッツ定数を制約し、敵対的摂動に対する頑健性を向上させつつ、精度と訓練速度を維持または向上させる。
We introduce Parseval networks, a form of deep neural networks in which the Lipschitz constant of linear, convolutional and aggregation layers is constrained to be smaller than 1. Parseval networks are empirically and theoretically motivated by an analysis of the robustness of the predictions made by deep neural networks when their input is subject to an adversarial perturbation. The most important feature of Parseval networks is to maintain weight matrices of linear and convolutional layers to be (approximately) Parseval tight frames, which are extensions of orthogonal matrices to non-square matrices. We describe how these constraints can be maintained efficiently during SGD. We show that Parseval networks match the state-of-the-art in terms of accuracy on CIFAR-10/100 and Street View House Numbers (SVHN) while being more robust than their vanilla counterpart against adversarial examples. Incidentally, Parseval networks also tend to train faster and make a better usage of the full capacity of the networks.
研究の動機と目的
- 小さな入力摂動(敵対的例)に対する深層ネットワークの頑健性を動機づける。
- リプシッツ定数を制約するための層ごとの正則化(Parseval正則化)を導入する。
- SGDと一般的なアーキテクチャ(全結合、畳み込み、残差)に適した効率的な訓練手順を開発する。
- Parsevalネットワークが敵対的頑健性と訓練速度を改善しつつ競争力のある精度を維持することを示す。
提案手法
- 重み行列に対して概ねParsevalのタイトフレームを維持することにより、各隠れ層のリプシッツ定数を <= 1 に制約する。
- 畳み込み層では、出力が (2k+1)^(-1/2) で再スケールされるよう、WをParsevalタイトフレームに制約する。
- 標準の集約(和)を、単体上の学習可能なアルファで入力の凸結合に置換し、リプシッツ境界を保証する。
- 実用的な正則化子 R_beta(W)= (beta/2)||W^T W - I||_2^2 を用い、効率的な射影ステップとともに、Stiefel様流の多様体上で重み行列を最適化する。
- SGD 更新中に重みを準正交のままに保つため、1ステップのリトラクション(および任意の行サンプリング)を適用する。
- 集約係数の simplex 投影を用いて、各ノードで Lambda_p <= 1 を保証する。
実験結果
リサーチクエスチョン
- RQ1Parseval正則化による層ごとのリプシッツ定数の制約は、精度を犠牲にすることなく敵対的摂動に対する頑健性を向上させられるのか?
- RQ2全結合、畳み込み、残差アーキテクチャに対して、SGDでParseval制約を効率的に強制するにはどうすればよいか?
- RQ3Parseval正則化と adversarial training の組み合わせが、標準的な画像データセットにおける頑健性に与える影響は何か?
主な発見
| モデル | クリーン | ε≈50 | ε≈45 | ε≈40 | ε≈33 |
|---|---|---|---|---|---|
| CIFAR-10 Vanilla | 95.63 | 90.16 | 85.97 | 76.62 | 67.21 |
| CIFAR-10 Parseval(OC) | 95.82 | 91.85 | 88.56 | 78.79 | 61.38 |
| CIFAR-10 Parseval | 96.28 | 93.03 | 90.40 | 81.76 | 69.10 |
| CIFAR-10 Vanilla | 95.49 | 91.17 | 88.90 | 86.75 | 84.87 |
| CIFAR-10 Parseval(OC) | 95.59 | 92.31 | 90.00 | 87.02 | 85.23 |
| CIFAR-10 Parseval | 96.08 | 92.51 | 90.05 | 86.89 | 84.53 |
| CIFAR-100 Vanilla | 79.70 | 65.76 | 57.27 | 44.62 | 34.49 |
| CIFAR-100 Parseval(OC) | 81.07 | 70.33 | 63.78 | 49.97 | 32.99 |
| CIFAR-100 Parseval | 80.72 | 72.43 | 66.41 | 55.41 | 41.19 |
| CIFAR-100 Vanilla | 79.23 | 67.06 | 62.53 | 56.71 | 51.78 |
| CIFAR-100 Parseval(OC) | 80.34 | 69.27 | 62.93 | 53.21 | 52.60 |
| CIFAR-100 Parseval | 80.19 | 73.41 | 67.16 | 58.86 | 39.56 |
| SVHN Vanilla | 98.38 | 97.04 | 95.18 | 92.71 | 88.11 |
| SVHN Parseval(OC) | 97.91 | 97.55 | 96.35 | 93.73 | 89.09 |
| SVHN Parseval | 98.13 | 97.86 | 96.19 | 93.55 | 88.47 |
- Parseval訓練は特異値がほぼ1の周りに密接に集中する重み行列を生み出し、ほぼ直交性を示唆する。
- Parsevalネットワークは、CIFAR-10/100およびSVHNで、素のモデルと比較して競争力のあるクリーン精度を提供する。
- Parsevalネットワークは敵対的サンプルに対する頑健性を大幅に向上させ、しばしば素のモデルを上回り、いくつかの設定で adversarial training に匹敵またはそれを上回る。
- Parseval正則化と敵対的訓練の組み合わせが最も頑健な性能を生み、特にノイズレベルが高い場合に顕著。
- Parsevalネットワークは素の counterparts より訓練が速い傾向があり、ネットワーク容量をより有効に活用する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。