Skip to main content
QUICK REVIEW

[論文レビュー] SmoothOut: Smoothing Out Sharp Minima to Improve Generalization in Deep Learning

Wei Wen, Yandan Wang|arXiv (Cornell University)|May 21, 2018
Stochastic Gradient Optimization Techniques参考文献 7被引用数 28
ひとこと要約

SmoothOutは、一様な重み摂動を用いて鋭い極小値を平滑化することで、深層学習の一般化性能を向上させる。重みの変動に対する感受性を低減する。理論的には、平坦な極小値が摂動下で期待損失を低く抑えることを証明し、CIFAR-100およびResNet-44における実験的結果から、小規模および大規模バッチ学習の両方で、より高いロバスト性と精度が得られることを示している。

ABSTRACT

In Deep Learning, Stochastic Gradient Descent (SGD) is usually selected as a training method because of its efficiency; however, recently, a problem in SGD gains research interest: sharp minima in Deep Neural Networks (DNNs) have poor generalization; especially, large-batch SGD tends to converge to sharp minima. It becomes an open question whether escaping sharp minima can improve the generalization. To answer this question, we propose SmoothOut framework to smooth out sharp minima in DNNs and thereby improve generalization. In a nutshell, SmoothOut perturbs multiple copies of the DNN by noise injection and averages these copies. Injecting noises to SGD is widely used in the literature, but SmoothOut differs in lots of ways: (1) a de-noising process is applied before parameter updating; (2) noise strength is adapted to filter norm; (3) an alternative interpretation on the advantage of noise injection, from the perspective of sharpness and generalization; (4) usage of uniform noise instead of Gaussian noise. We prove that SmoothOut can eliminate sharp minima. Training multiple DNN copies is inefficient, we further propose an unbiased stochastic SmoothOut which only introduces the overhead of noise injecting and de-noising per batch. An adaptive variant of SmoothOut, AdaSmoothOut, is also proposed to improve generalization. In a variety of experiments, SmoothOut and AdaSmoothOut consistently improve generalization in both small-batch and large-batch training on the top of state-of-the-art solutions.

研究の動機と目的

  • 損失関数の地形における鋭い極小値が原因で生じる深層ニューラルネットワークの一般化性能の低下を是正すること。
  • 平坦な極小値と鋭い極小値の両方において、重み摂動と期待損失の関係を形式化すること。
  • 一様摂動を用いて鋭い極小値を平滑化することで、一般化性能を向上させる手法を開発すること。
  • 理論的および実験的に、摂動下で平坦な極小値が期待損失を低く抑えることを検証すること。

提案手法

  • 重みを中心とするボックス上に一様な摂動分布を定義し、半径 $ a $ を用いて期待損失 $ \bar{C}(\bm{w}) $ を計算する。
  • 対称的な平坦な極小値が $ \nabla\bar{C}(\bm{w}_f) = \bm{0} $ を満たすことを証明し、摂動下での安定性を示す。
  • 理論的分析により、鋭い極小値では摂動領域内の期待損失の最小値が、その領域内での損失の最大値を上回ることを示した。
  • 体積比を用いて期待損失の境界を導出し、高次元において $ \min_{\mathcal{D}(\bm{w}_s,\varepsilon)} \bar{C}(\bm{w}) > \max_{\mathcal{D}(\bm{w}_s,\varepsilon)} C(\bm{w}) $ が成り立つことを示した。
  • 高次元における測度の集中現象を利用し、高次元の摂動体積が鋭い極小値をますます不安定にする仕組みを解明した。
  • 実験的検証として、AdamおよびSGD最適化法を用い、小規模および大規模バッチ設定下でCIFAR-100およびResNet-44を用いた。

実験結果

リサーチクエスチョン

  • RQ1一様な重み摂動は、深層学習における鋭い極小値に対する感受性を効果的に低減するか?
  • RQ2高次元の重み空間において、期待損失の理論的境界は平坦な極小値と鋭い極小値を区別できるか?
  • RQ3一様摂動下で、平坦な極小値の期待損失は鋭い極小値のそれと比べてどのように異なるか?
  • RQ4SmoothOutは、異なるバッチサイズやデータセットにおいて、一般化性能をどの程度向上させるか?
  • RQ5対称性と次元数は、摂動下での極小値の安定化にどのような役割を果たすか?

主な発見

  • 理論的分析により、平坦な極小値が対称的摂動下で $ \nabla\bar{C}(\bm{w}_f) = \bm{0} $ を満たすことが確認され、摂動下での安定性が示された。
  • 高次元空間において、鋭い極小値の周囲の摂動領域における期待損失の最小値が、その領域内での損失の最大値を上回り、『鋭さ制約』を満たす。
  • $ m $ が大きい場合、$ \min_{\mathcal{D}(\bm{w}_s,\varepsilon)} \bar{C}(\bm{w}) \to C^{(s)}_{\varepsilon'} $ となることが示され、鋭い極小値が摂動下でますます不安定になることが明らかになった。
  • CIFAR-100と $ C_3 $ ネットワークを用いた実験では、SmoothOutがさまざまなノイズ強度において、精度と損失の安定性を向上させた。
  • ResNet-44では、小規模および大規模バッチ学習の両方において、SmoothOutが優れた性能を維持し、バッチサイズの影響に対してロバストであることが示された。
  • 可視化により、SmoothOutが小規模および大規模バッチ学習の両方の環境で、鋭さを効果的に低減していることが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。