Skip to main content
QUICK REVIEW

[論文レビュー] Training of Deep Neural Networks based on Distance Measures using RMSProp

Thomas Kurbiel, Shahrzad Khaleghian|arXiv (Cornell University)|Aug 6, 2017
Neural Networks and Applications参考文献 6被引用数 59
ひとこと要約

本論文はガウス活性化関数を用いた距離測定ベースのニューラルネットワークを提案し、RMSPropが効果的な訓練を可能にし、初期化と交互最適化方式の工夫によって勾配消失/爆発を緩和することを実証している。

ABSTRACT

The vanishing gradient problem was a major obstacle for the success of deep learning. In recent years it was gradually alleviated through multiple different techniques. However the problem was not really overcome in a fundamental way, since it is inherent to neural networks with activation functions based on dot products. In a series of papers, we are going to analyze alternative neural network structures which are not based on dot products. In this first paper, we revisit neural networks built up of layers based on distance measures and Gaussian activation functions. These kinds of networks were only sparsely used in the past since they are hard to train when using plain stochastic gradient descent methods. We show that by using Root Mean Square Propagation (RMSProp) it is possible to efficiently learn multi-layer neural networks. Furthermore we show that when appropriately initialized these kinds of neural networks suffer much less from the vanishing and exploding gradient problem than traditional neural networks even for deep networks.

研究の動機と目的

  • 勾配消失に対処するため、ドット積に基づかないニューラルネットワークの探究を促す。
  • RMSPropが距離測定ネットワークの効果的な訓練を可能にすることを示す。
  • 適切な初期化が勾配の問題を軽減し、より深いアーキテクチャを支えることを示す。
  • 収束を高め、計算量を削減するための交互最適化を提案する。
  • MNISTと関数近似の実験を通じて近似能力を評価する。

提案手法

  • 軸に揃ったガウス関数としてニューロン活性化を持つガウス層のネットワークを用いる。
  • すべての中心と半径パラメータの学習率を適応させるためにRMSPropを適用する。
  • セントロイドcと半径rの逆伝播更新式(式10–12)とそれぞれの勾配を導出する。
  • タスクに応じて2次的な回帰コストまたはソフトマックス交差エントロピーコストを用いる。
  • 中心と半径を特定の正規分布で初期化する(式15–17)。
  • 任意で、半径と中心を順番に更新する交互最適化スキームを採用する。

実験結果

リサーチクエスチョン

  • RQ1ガウス活性化を持つ距離測定から構築されたニューラルネットワークは複雑な関数を学習できるか。
  • RQ2RMSPropはこれらの距離ベースのネットワークの訓練を実現可能にするか。
  • RQ3初期化と交互最適化は収束と勾配挙動にどう影響するか。

主な発見

  • RMSPropは通常のSGDだと苦労する距離測定ベースのネットワークの訓練を可能にする。
  • 適切な初期化により、勾配の消失/爆発は従来のドット積ネットワークと比べて深刻度が小さい。
  • MNIST実験では、30エポック後に2つの隠れ層それぞれ100ユニットで98.2%のテスト精度を達成。
  • ネットワークは任意の関数を近似でき、2次元のガウス密度や回転したガウス密度を含む、RMS誤差が小さい(例では0.006–0.008)。
  • 半径とセントロイドの交互最適化は収束を著しく改善し、計算負荷を低減する。
  • この手法は回帰と分類の両方のタスクに適用可能で、ソフトマックス出力とクロスエントロピー損失を含む。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。