QUICK REVIEW

[論文レビュー] Efficient Sharpness-aware Minimization for Improved Training of Neural Networks

Jiawei Du, Hanshu Yan|arXiv (Cornell University)|Oct 7, 2021

Advanced Neural Network Applications参考文献 31被引用数 26

ひとこと要約

ESAM は確率的重み摂動とシャープネス感度データ選択を導入することで Sharpness Aware Minimization (SAM) の計算オーバーヘッドを低減しつつ、SAM と比較して一般化性能を維持または向上させます。

ABSTRACT

Overparametrized Deep Neural Networks (DNNs) often achieve astounding performances, but may potentially result in severe generalization error. Recently, the relation between the sharpness of the loss landscape and the generalization error has been established by Foret et al. (2020), in which the Sharpness Aware Minimizer (SAM) was proposed to mitigate the degradation of the generalization. Unfortunately, SAM s computational cost is roughly double that of base optimizers, such as Stochastic Gradient Descent (SGD). This paper thus proposes Efficient Sharpness Aware Minimizer (ESAM), which boosts SAM s efficiency at no cost to its generalization performance. ESAM includes two novel and efficient training strategies-StochasticWeight Perturbation and Sharpness-Sensitive Data Selection. In the former, the sharpness measure is approximated by perturbing a stochastically chosen set of weights in each iteration; in the latter, the SAM loss is optimized using only a judiciously selected subset of data that is sensitive to the sharpness. We provide theoretical explanations as to why these strategies perform well. We also show, via extensive experiments on the CIFAR and ImageNet datasets, that ESAM enhances the efficiency over SAM from requiring 100% extra computations to 40% vis-a-vis base optimizers, while test accuracies are preserved or even improved.

研究の動機と目的

過parameterized DNN における flat minima を促進して一般化を改善する必要性を動機づける。
性能を犠牲にせず、効率化戦略を取り入れて SAM を拡張する。
ESAM を二つの要素：Stochastic Weight Perturbation (SWP) と Sharpness-Sensitive Data Selection (SDS) で開発・評価する。
SWP と SDS の理論的正当性を提供し、CIFAR-10, CIFAR-100, ImageNet で広範な実験を通じて検証する。

提案手法

SAM とその計算的欠点をレビューする：シャープネスの内部最大化は各イテレーションごとに追加の前方・後方伝播を必要とする。
SWP と SDS の二つの戦略を組み込んで ESAM を導入する。
SWP：シャープネス推定中に摂動を加える重みの部分集合をランダムに選択し、摂動を SAM の期待摂動と等しくなるようにスケールして、後方伝播コストを削減する。
SDS：重み摂動下で損失が最も増加する各バッチのデータの部分集合を選択し、SAM の目的をより少ないサンプルで近似する。
SWP の期待摂動がノルムと方向で SAM と一致すること、SDS がシャープネス感度サブセットを用いて SAM 損失を上界することを理論的に示す。
アルゴリズム 1 は、近傍サイズ、摂動スケーリング、サブセット比率のパラメータを持つ ESAM を概説する。

実験結果

リサーチクエスチョン

RQ1ESAM は SAM と同様のフラットミニマを達成しつつ計算オーバーヘッドを削減できるか。
RQ2確率的重み摂動がシャープネス推定の忠実度に与える影響は何か。
RQ3シャープネス感度データ選択は、訓練効率を改善しつつ SAM の一般化を維持できるか。
RQ4SWP と SDS は、複数のアーキテクチャとデータセットにおいて個別に、あるいは組み合わせてどう機能するか。

主な発見

Dataset / Model	SGD Accuracy	SGD Images/s	SAM Accuracy	SAM Images/s	ESAM Accuracy	ESAM Images/s
CIFAR-10 / ResNet-18	95.41	3387	96.52	1717	96.56	2409
CIFAR-10 / Wide-28-10	96.34	801	97.27	396	97.29	550
CIFAR-10 / PyramidNet-110	96.62	580	97.30	289	97.81	401
CIFAR-100 / ResNet-18	78.17	3438	80.17	1730	80.41	2423
CIFAR-100 / Wide-28-10	81.56	792	83.42	391	84.51	545
CIFAR-100 / PyramidNet-110	81.89	555	84.46	276	85.56	381
ImageNet / ResNet-50	76.00*	1327	76.70*	654	77.05	846
ImageNet / ResNet-101	77.80*	891	78.60*	438	79.09	564

ESAM は SAM の約100% 追加計算を約40% へ引き下げつつ、テスト精度を維持または向上させる。
CIFAR-10/100 では、ESAM は複数のアーキテクチャ（ResNet-18、Wide-ResNet-28-10、PyramidNet-110）で SAM より高いまたは同等の精度と高いスループット（画像/秒）を示す。
ImageNet では、ESAM は ResNet-50 および ResNet-101 で SAM より高い精度を示し、SAM より約28.7%速い訓練を実現。
アブレーション研究は、SWP と SDS の両方が効率と性能を向上させることを示し、最適設定はしばしば beta ≈ 0.5–0.6 および gamma ≈ 0.5 の周辺である。
損失地形の可視化は、ESAM が SAM に似たより平坦な minima を達成し、SGD より優れていることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。