[論文レビュー] Hessian-based Analysis of Large Batch Training and Robustness to Adversaries
この論文は大規模バッチのニューラルネットワーク訓練に対するヘッセ行列ベースの分析を行い、大規模バッチが高い曲率領域へ収束し adversarial perturbations に脆弱化することを示す;ロバスト最適化は平坦な極小値へバイアスすることでこれに対抗する。
Large batch size training of Neural Networks has been shown to incur accuracy loss when trained with the current methods. The exact underlying reasons for this are still not completely understood. Here, we study large batch size training through the lens of the Hessian operator and robust optimization. In particular, we perform a Hessian based study to analyze exactly how the landscape of the loss function changes when training with large batch size. We compute the true Hessian spectrum, without approximation, by back-propagating the second derivative. Extensive experiments on multiple networks show that saddle-points are not the cause for generalization gap of large batch size training, and the results consistently show that large batch converges to points with noticeably higher Hessian spectrum. Furthermore, we show that robust training allows one to favor flat areas, as points with large Hessian spectrum show poor robustness to adversarial perturbation. We further study this relationship, and provide empirical and theoretical proof that the inner loop for robust training is a saddle-free optimization problem extit{almost everywhere}. We present detailed experiments with five different network architectures, including a residual network, tested on MNIST, CIFAR-10, and CIFAR-100 datasets. We have open sourced our method which can be accessed at [1].
研究の動機と目的
- 大規模バッチサイズが真のヘシアンスペクトルを用いて、損失ランドスケープが小規模バッチと比べてどう変化するかを調査する。
- 大規模バッチ訓練と敵対的摂動へのロバスト性の関係を検討する。
- ロバスト最適化がヘシアンスペクトルと決定境界にどう影響するかを探る。
提案手法
- 訓練中に二階微分を逆伝播して真のヘシアンスペクトルを直接計算する。
- 小規模と大規模バッチのヘシアンスペクトルと摂動分布を比較する。
- FGSMと二階攻撃を用いてアーキテクチャ/データセット全体で敵対的摂動を分析する。
- 特定の条件下で内部のロバスト最適化はほぼ全域で鞍点ゼロ(saddle-free)であることを示す。
- 経験的・理論的分析を用いてロバスト訓練とヘシアンスペクトルの変化の関係を明らかにする。
実験結果
リサーチクエスチョン
- RQ1大規模バッチ訓練は小規模バッチ訓練と比べてロスランドスケープの局所幾何をどう変えるのか?
- RQ2バッチサイズと敵対的摂動に対するモデルのロバスト性の関係は?
- RQ3ロバスト最適化は解をより平坦(低曲率)な領域へバイアスするのか、そしてこれが敵対的ロバスト性とどう関係する?
- RQ4敵対的訓練の内部ループはほぼ全域で鞍点フリーの最適化問題か?
主な発見
- 大規模バッチ訓練は訓練データとテストデータの損失の両方において明らかに高いヘシアンスペクトルの領域へ収束する。
- 大規模バッチで収束した点は小規模バッチで訓練された点より敵対的攻撃に対して脆弱である。
- ロバスト訓練はモデルをヘシアンスペクトルの小さい領域へ移動させ、平坦な極小値へのバイアスを示す。
- 提示された仮定の下で内部の敵対的摂動問題はほぼ全域で鞍点フリーである。
- ロバスト最適化は敵対的ロバスト性を改善するが、クリーンデータでの精度を低下させる可能性がある。
- 敵対的訓練はヘシアンスペクトルを変化させ、総損失の曲率が正のままであってもより低い曲率を持つモデルを生み出せる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。