Skip to main content
QUICK REVIEW

[論文レビュー] Deep Learning using Rectified Linear Units (ReLU)

Abien Fred Agarap|arXiv (Cornell University)|Mar 22, 2018
Neural Networks and Applications参考文献 13被引用数 2,484
ひとこと要約

この研究は、深層ニューラルネットワークにおける分類関数としてReLUを使用することを検証し、MNIST、Fashion-MNIST、WDBCデータセットに対してFFNNとCNNアーキテクチャでDL-ReLUとDL-Softmaxを比較します。

ABSTRACT

We introduce the use of rectified linear units (ReLU) as the classification function in a deep neural network (DNN). Conventionally, ReLU is used as an activation function in DNNs, with Softmax function as their classification function. However, there have been several studies on using a classification function other than Softmax, and this study is an addition to those. We accomplish this by taking the activation of the penultimate layer $h_{n - 1}$ in a neural network, then multiply it by weight parameters $θ$ to get the raw scores $o_{i}$. Afterwards, we threshold the raw scores $o_{i}$ by $0$, i.e. $f(o) = \max(0, o_{i})$, where $f(o)$ is the ReLU function. We provide class predictions $\hat{y}$ through argmax function, i.e. argmax $f(x)$.

研究の動機と目的

  • 深層ネットワークにおいて、最終分類器としてのSoftmaxをReLUに置き換える動機づけ。
  • 標準ベンチマークでDL-ReLUの性能をDL-Softmaxと比較評価する。
  • トレーニング収束性・学習ダイナミクスを、アーキテクチャとデータセット全体で分析する。
  • ReLU分類の潜在的な欠点を特定し、今後の改善案を提案する。

提案手法

  • SoftmaxとReLUを最終層分類器とする2つのネットワークタイプ(FFNNとCNN)を使用する。
  • 公平な比較を可能にするため、同一のハイパーパラメータを用いてAdam最適化アルゴリズムで訓練する。
  • MNIST/Fashion-MNISTでは正規化とPCAによる次元削減でデータを前処理する。
  • Softmaxクロスエントロピー損失をReLUベースのクロスエントロピー定式化に置換し、通常どおり勾配をバックプロパゲーションする。
  • 10分割交差検証、テスト精度、適合率、再現率、F1スコア、および混同行列を用いて評価する。

実験結果

リサーチクエスチョン

  • RQ1Softmaxを分類層として置換したReLUが、MNIST、Fashion-MNIST、およびWDBCでSoftmaxベースのモデルと同等または優れた精度を示すか?
  • RQ2FFNNとCNNのアーキテクチャ全体で、ReLUベースの分類が訓練収束性と学習ダイナミクスにどう影響するか?
  • RQ3ReLUを最終分類器として使用した場合のクラスごとの性能パターン(精度/再現率/ F1)とは何か?
  • RQ4DL-ReLUの性能に影響を与える制約(例:死んだReLUなど)は何で、どう緩和できるか?

主な発見

モデルデータセット訓練クロスバリデーションテスト精度適合率再現率F1スコア
FFNN-SoftmaxMNIST99.29%97.98%0.980.980.98
FFNN-ReLUMNIST98.22%97.77%0.980.980.98
CNN-SoftmaxMNIST97.23%95.36%0.950.950.95
CNN-ReLUMNIST73.53%91.74%0.920.920.92
FFNN-SoftmaxFashion-MNIST98.87%89.35%0.890.890.89
FFNN-ReLUFashion-MNIST92.23%89.06%0.890.890.89
CNN-SoftmaxFashion-MNIST91.96%86.08%0.860.860.86
CNN-ReLUFashion-MNIST83.24%85.84%0.860.860.86
FFNN-SoftmaxWDBC91.21%92.40%0.920.920.92
FFNN-ReLUWDBC87.96%90.64%0.910.910.90
  • DL-ReLUは、データセットとアーキテクチャ全体でDL-Softmaxと比較可能な性能を達成することが多い。
  • MNISTでは、FFNN-ReLUはFFNN-Softmaxにほぼ匹敵(97.77%対97.98%)。
  • MNIST上のCNN-ReLUは収束が遅く、交差検証精度ではCNN-Softmaxに及ばない(73.53%対97.23%)が、テスト精度は91.74%に達する。
  • Fashion-MNISTでは、FFNN-ReLUはFFNN-Softmaxに近い(89.06%対89.35%のテスト精度)。
  • Fashion-MNIST上のCNN-ReLUはCNN-Softmaxより交差検証精度が低いが、テスト精度はほぼ同等(85.84%対86.08%)。
  • WDBCでは、FFNN-ReLUはFFNN-Softmaxに劣り、交差検証とテストの両方で劣後(テスト精度90.64%対92.40%、F1 0.90対0.92)。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。