Skip to main content
QUICK REVIEW

[論文レビュー] Optimizing Neural Networks in the Equivalent Class Space.

Qi Meng, Wei Chen|arXiv (Cornell University)|Feb 11, 2018
Advanced Neural Network Applications参考文献 16被引用数 2
ひとこと要約

本稿では、活性化関数およびプーリング層のスケール不変性に起因する冗長性を排除するため、コン pact な同値類空間内でのニューラルネットワーク最適化を再パラメータ化する新規手法 Equivalent Class Optimization (EC-Opt) を提案する。この低次元空間における勾配の再定式化により、計算コストを最小限に抑えつつ、誤った臨界点を低減し、全結合層および畳み込み層の両方において標準的な SGD よりも顕著にモデルの精度を向上させる。

ABSTRACT

It has been widely observed that many activation functions and pooling methods of neural network models have (positive-) rescaling-invariant property, including ReLU, PReLU, max-pooling, and average pooling, which makes fully-connected neural networks (FNNs) and convolutional neural networks (CNNs) invariant to (positive) rescaling operation across layers. This may cause unneglectable problems with their optimization: (1) different NN models could be equivalent, but their gradients can be very different from each other; (2) it can be proven that the loss functions may have many spurious critical points in the redundant weight space. To tackle these problems, in this paper, we first characterize the rescaling-invariant properties of NN models using equivalent classes and prove that the dimension of the equivalent class space is significantly smaller than the dimension of the original weight space. Then we represent the loss function in the compact equivalent class space and develop novel algorithms that conduct optimization of the NN models directly in the equivalent class space. We call these algorithms Equivalent Class Optimization (abbreviated as EC-Opt) algorithms. Moreover, we design efficient tricks to compute the gradients in the equivalent class, which almost have no extra computational complexity as compared to standard back-propagation (BP). We conducted experimental study to demonstrate the effectiveness of our proposed new optimization algorithms. In particular, we show that by using the idea of EC-Opt, we can significantly improve the accuracy of the learned model (for both FNN and CNN), as compared to using conventional stochastic gradient descent algorithms.

研究の動機と目的

  • 活性化関数およびプーリング層に起因するスケール不変性に起因する最適化の不安定性を解消すること。
  • これらの不変性に起因する重み空間内の本質的冗長性を同値類を用いて特徴づけること。
  • 直接的にコンパクトな同値類空間で動作する新しい最適化フレームワークを開発すること。
  • 標準的なバックプロパゲーションと同等の計算効率を維持しつつ、学習収束性と精度を向上させること。
  • EC-Opt が全結合層および畳み込みニューラルネットワークにおいて、従来の SGD より優れていることを実証的に検証すること。

提案手法

  • 本稿では、正のスケーリング下でもネットワーク出力を保つ重み変換を同定することで、同値類を定義し、ReLU、PReLU、マックスプーリング、アベージプーリングの不変性を形式化する。
  • 同値類空間の次元が元の重み空間よりも顕著に小さいことを証明し、最適化における冗長性が低減されることを示す。
  • 損失関数を同値類パラメータの観点から再表現することで、この低次元空間での直接的最適化を可能にする。
  • 標準的なバックプロパゲーションをわずかに超える追加計算コストで、同値類空間における勾配を計算するための新規な勾配計算技術を設計する。
  • EC-Opt アルゴリズムは、元の重み空間における冗長な更新を回避するために、同値類空間内で直接確率的最適化を実行する。
  • モデルの等価性を維持しつつ、安定的かつ正確な学習を可能にするための効率的なパラメータ化およびプロジェクション機構を導入する。

実験結果

リサーチクエスチョン

  • RQ1一般的なニューラルネットワーク部品のスケール不変性は、同値重みクラスの観点からどのように形式的に特徴づけられるか?
  • RQ2全結合層および畳み込み層における同値類空間の次元は、元の重み空間に対してどの程度の大きさか?
  • RQ3同値類空間における最適化は、誤った臨界点を低減し、学習ダイナミクスを改善できるか?
  • RQ4EC-Opt は、収束速度および最終的なモデル精度において、標準的な SGD と比べてどの程度優れているか?
  • RQ5標準的なバックプロパゲーションと比較して、同値類空間における勾配計算の計算コストはどの程度か?

主な発見

  • 同値類空間の次元は、元の重み空間よりも顕著に小さいことが確認され、最適化における冗長性が顕著であることが裏付けられた。
  • EC-Opt は、余分な自由度を排除することで、損失関数の地形における誤った臨界点の数を低減した。
  • 同値類空間における勾配計算は、標準的なバックプロパゲーションと比較してほとんど追加計算コストを要しないことが確認された。
  • EC-Opt は、全結合層および畳み込みニューラルネットワークの両方において、標準的な SGD よりも高いモデル精度を達成した。
  • 複数のベンチマークタスクにわたり、精度向上の効果が一貫して観察され、本手法の一般化可能性が示された。
  • 本手法は、標準的なディープラーニングアーキテクチャと互換性があり、アーキテクチャの変更を要しない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。