Skip to main content
QUICK REVIEW

[論文レビュー] Trainability and Data-dependent Initialization of Over-parameterized ReLU Neural Networks

Yeonjong Shin, George Em Karniadakis|arXiv (Cornell University)|Jul 23, 2019
Neural Networks and Applications参考文献 18被引用数 3
ひとこと要約

この論文は、過パラメータ化されたReLUニューラルネットワークにおけるトレーニング可能性の概念を導入し、初期化時において常に死んでいないニューロンの割合として定義する。データに依存する初期化手法を提案し、過パラメータ化が訓練損失を最小化するために必要かつ十分であることを示し、実験的妥当性を確認した。

ABSTRACT

In this paper, we study the trainability of rectified linear unit (ReLU) networks. A ReLU neuron is said to be dead if it only outputs a constant for any input. Two death states of neurons are introduced; tentative and permanent death. A network is then said to be trainable if the number of permanently dead neurons is sufficiently small for a learning task. We refer to the probability of a network being trainable as trainability. We show that a network being trainable is a necessary condition for successful training and the trainability serves as an upper bound of successful training rates. In order to quantify the trainability, we study the probability distribution of the number of active neurons at the initialization. In many applications, over-specified or over-parameterized neural networks are successfully employed and shown to be trained effectively. With the notion of trainability, we show that over-parameterization is both a necessary and a sufficient condition for minimizing the training loss. Furthermore, we propose a data-dependent initialization method in the over-parameterized setting. Numerical examples are provided to demonstrate the effectiveness of the method and our theoretical findings.

研究の動機と目的

  • 成功した訓練のための必要条件として、ReLUネットワークにおけるトレーニング可能性を定義し、定量化すること。
  • 過パラメータ化された設定における初期化時の活性ニューロンの確率分布を分析すること。
  • 過パラメータ化が、訓練損失を最小化するために必要かつ十分であることを確立すること。
  • 過パラメータ化されたネットワークにおけるトレーニング可能性を向上させるためのデータに依存する初期化手法を開発すること。
  • 理論的考察を数値実験で検証し、訓練成功確率の向上を示すこと。

提案手法

  • 初期化時に不活性なニューロンを特徴付けるために、一時的死と恒久的死の2つのニューロン死の状態を導入する。
  • トレーニング可能性を、与えられた学習タスクに対して恒久的死に陥るニューロンが十分に少ない確率として定義する。
  • 過パラメータ化されたReLUネットワークにおけるトレーニング可能性を定量化するために、初期化時の活性ニューロンの分布を分析する。
  • 過パラメータ化された設定に特化したデータに依存する初期化スキームを提案し、ニューロン死を低減する。
  • 理論的分析を用いて、過パラメータ化がトレーニング可能性を保証し、結果として成功した訓練を実現することを示す。
  • 数値実験を用いて、提案された初期化と理論的主張の有効性を検証する。

実験結果

リサーチクエスチョン

  • RQ1ニューロンの死の状態として、どのような要因がReLUネットワークのトレーニング可能性を定義するか?
  • RQ2初期化時のニューロン活性確率が、全体のトレーニング可能性にどのように影響するか?
  • RQ3過パラメータ化は、ReLUネットワークにおける訓練損失の最小化に、必要かつ十分であるか?
  • RQ4データに依存する初期化は、過パラメータ化された設定におけるトレーニング可能性を向上させることができるか?
  • RQ5トレーニング可能性と実際の訓練成功確率の間には、どのような関係があるか?

主な発見

  • トレーニング可能性は成功した訓練のための必要条件であり、訓練成功確率の上界を示す。
  • 過パラメータ化は、ReLUネットワークにおける訓練損失を最小化するために必要かつ十分である。
  • 提案されたデータに依存する初期化手法は、ニューロン死を低減し、過パラメータ化された設定におけるトレーニング可能性を向上させる。
  • 理論的分析により、過パラメータ化が初期化時における十分な活性ニューロンの確率を保証することを確認した。
  • 数値結果により、提案された初期化手法が標準的手法に比べて訓練成功確率を向上させることを示した。
  • 本研究は、初期化時のニューロン活性分布と最終的な訓練性能との直接的な関連を確立した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。