QUICK REVIEW

[論文レビュー] Sharpness-Aware Minimization for Efficiently Improving Generalization

Pierre Foret, Ariel Kleiner|arXiv (Cornell University)|Oct 3, 2020

Advanced Neural Network Applications参考文献 60被引用数 104

ひとこと要約

SAM は訓練損失だけでなく損失地形の鋭さも最適化することにより一般化を改善し、CIFAR、ImageNet、転移タスクでのテスト性能が向上する。

ABSTRACT

In today's heavily overparameterized models, the value of the training loss provides few guarantees on model generalization ability. Indeed, optimizing only the training loss value, as is commonly done, can easily lead to suboptimal model quality. Motivated by prior work connecting the geometry of the loss landscape and generalization, we introduce a novel, effective procedure for instead simultaneously minimizing loss value and loss sharpness. In particular, our procedure, Sharpness-Aware Minimization (SAM), seeks parameters that lie in neighborhoods having uniformly low loss; this formulation results in a min-max optimization problem on which gradient descent can be performed efficiently. We present empirical results showing that SAM improves model generalization across a variety of benchmark datasets (e.g., CIFAR-10, CIFAR-100, ImageNet, finetuning tasks) and models, yielding novel state-of-the-art performance for several. Additionally, we find that SAM natively provides robustness to label noise on par with that provided by state-of-the-art procedures that specifically target learning with noisy labels. We open source our code at \url{https://github.com/google-research/sam}.

研究の動機と目的

パラメータ過剰適合モデルにおける損失地形の幾何と一般化の関係を動機づける。
損失値と損失鋭さの両方を最小化する実用的な最適化目的を提案する。
鋭さを最適化することが多様なデータセットとアーキテクチャで一般化を改善することを示す。

提案手法

SAM を導入する: min_w max_{||epsilon||_p <= rho} L_S(w+epsilon) + lambda||w||^2.
内部最大化を微分し1次のテイラー展開を用いて効率的な勾配近似を導出する。
トレーニング損失勾配の rho スケール正規化の形で摂動 hat{epsilon}(w) を計算する（p=2 の場合）。
hat{epsilon}(w) で評価された勾配を用いた SAM 目的関数の SGD で w を更新する。
擬似コード（アルゴリズム1）を提供し、並列化や二次項のアブレーションを含む実装上の詳細を議論する。
m-鋭さ（サブバッチ摂動）とヘッセ行列スペクトルを分析して鋭さと一般化を結びつける。

実験結果

リサーチクエスチョン

RQ1鋭さ項を訓練目的に組み込むと、標準的な視覚データセットに対して一般化が改善されるか。
RQ2CIFAR-10/100、ImageNet、およびファインチューニングタスクで SAM は SGD と比較してどのように性能を発揮するか。
RQ3近傍サイズ rho と m-鋭さのバリアントが性能と一般化に与える影響はどのようか。
RQ4SAM はノイズラベル最先端の方法と同等のラベルノイズ耐性を提供するか。

主な発見

モデル	データ拡張	CIFAR-10（SAM）	CIFAR-10（SGD）	CIFAR-100（SAM）	CIFAR-100（SGD）
WRN-28-10（200エポック）	基本	2.7±0.1	3.5±0.1	16.5±0.2	18.8±0.2
WRN-28-10（200エポック）	カットアウト	2.3±0.1	2.6±0.1	14.9±0.2	16.9±0.1
WRN-28-10（200エポック）	AA	2.1±<0.1	2.3±0.1	13.6±0.2	15.8±0.2
WRN-28-10（1800エポック）	基本	2.4±0.1	3.5±0.1	16.3±0.2	19.1±0.1
WRN-28-10（1800エポック）	カットアウト	2.1±0.1	2.7±0.1	14.0±0.1	17.4±0.1
WRN-28-10（1800エポック）	AA	1.6±<0.1	1.9±<0.1	11.3±0.1	14.6±0.1
Shake-Shake（26 2x96d）	基本	2.3±<0.1	2.7±0.1	15.1±0.1	17.0±0.1
Shake-Shake（26 2x96d）	カットアウト	2.0±<0.1	2.3±0.1	14.2±0.2	15.7±0.2
Shake-Shake（26 2x96d）	AA	1.6±<0.1	1.9±0.1	12.8±0.1	14.1±0.2
PyramidNet	基本	2.7±0.1	4.0±0.1	14.6±0.4	19.7±0.3
PyramidNet	カットアウト	1.9±0.1	2.5±0.1	12.6±0.2	16.4±0.1
PyramidNet	AA	1.6±0.1	1.9±0.1	11.6±0.1	14.6±0.1
PyramidNet+ShakeDrop	基本	2.1±0.1	2.5±0.1	13.3±0.2	14.5±0.1
PyramidNet+ShakeDrop	カットアウト	1.6±<0.1	1.9±0.1	11.3±0.1	11.8±0.2
PyramidNet+ShakeDrop	AA	1.4±<0.1	1.6±<0.1	10.3±0.1	10.6±0.1

SAM は標準的な SGD と比較して CIFAR-10/100、ImageNet、ファインチューニングタスクで一貫して一般化を改善する。
CIFAR-10/100 において、SAM はいくつかのモデルと拡張（例: WRN、Shake-Shake、PyramidNet、組み合わせ）で最先端に近い結果を達成し、特定設定で CIFAR-10 の誤り率が 1.6%、AA を適用した一部設定で CIFAR-100 が 11.3% など。
SAM はラベルノイズ耐性をノイズラベル専用手法と同等以上に提供し、明示的なノイズラベル戦略のないベースラインを上回ることが多い。
m-鋭さバリアントは、より小さな m（各加速器サブバッチ）が一般化を改善し、実際の一般化ギャップとの相関を完全バッチ鋭さよりも強く示す。
SAM で訓練された ResNet 系は ImageNet で top-1 と top-5 の精度を改善し、例として ResNet-152 の top-1 誤差が 400 エポックで non-SAM の 20.3% から SAM の 18.4% に低下。
ヘッセ解析は SAM が曲率の小さい極値へ収束することを確認しており、例: λ_max は SAM で約 1.0、非 SAM で約 24。スペクトルはよりフラットになる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。