QUICK REVIEW

[論文レビュー] Deep Learning using Rectified Linear Units (ReLU)

Abien Fred Agarap|arXiv (Cornell University)|Mar 22, 2018

Neural Networks and Applications参考文献 13被引用数 2,484

ひとこと要約

この研究は、深層ニューラルネットワークにおける分類関数としてReLUを使用することを検証し、MNIST、Fashion-MNIST、WDBCデータセットに対してFFNNとCNNアーキテクチャでDL-ReLUとDL-Softmaxを比較します。

ABSTRACT

We introduce the use of rectified linear units (ReLU) as the classification function in a deep neural network (DNN). Conventionally, ReLU is used as an activation function in DNNs, with Softmax function as their classification function. However, there have been several studies on using a classification function other than Softmax, and this study is an addition to those. We accomplish this by taking the activation of the penultimate layer $h_{n - 1}$ in a neural network, then multiply it by weight parameters $θ$ to get the raw scores $o_{i}$. Afterwards, we threshold the raw scores $o_{i}$ by $0$, i.e. $f(o) = \max(0, o_{i})$, where $f(o)$ is the ReLU function. We provide class predictions $\hat{y}$ through argmax function, i.e. argmax $f(x)$.

研究の動機と目的

深層ネットワークにおいて、最終分類器としてのSoftmaxをReLUに置き換える動機づけ。
標準ベンチマークでDL-ReLUの性能をDL-Softmaxと比較評価する。
トレーニング収束性・学習ダイナミクスを、アーキテクチャとデータセット全体で分析する。
ReLU分類の潜在的な欠点を特定し、今後の改善案を提案する。

提案手法

SoftmaxとReLUを最終層分類器とする2つのネットワークタイプ（FFNNとCNN）を使用する。
公平な比較を可能にするため、同一のハイパーパラメータを用いてAdam最適化アルゴリズムで訓練する。
MNIST/Fashion-MNISTでは正規化とPCAによる次元削減でデータを前処理する。
Softmaxクロスエントロピー損失をReLUベースのクロスエントロピー定式化に置換し、通常どおり勾配をバックプロパゲーションする。
10分割交差検証、テスト精度、適合率、再現率、F1スコア、および混同行列を用いて評価する。

実験結果

リサーチクエスチョン

RQ1Softmaxを分類層として置換したReLUが、MNIST、Fashion-MNIST、およびWDBCでSoftmaxベースのモデルと同等または優れた精度を示すか？
RQ2FFNNとCNNのアーキテクチャ全体で、ReLUベースの分類が訓練収束性と学習ダイナミクスにどう影響するか？
RQ3ReLUを最終分類器として使用した場合のクラスごとの性能パターン（精度/再現率/ F1）とは何か？
RQ4DL-ReLUの性能に影響を与える制約（例：死んだReLUなど）は何で、どう緩和できるか？

主な発見

モデル	データセット	訓練クロスバリデーション	テスト精度	適合率	再現率	F1スコア
FFNN-Softmax	MNIST	99.29%	97.98%	0.98	0.98	0.98
FFNN-ReLU	MNIST	98.22%	97.77%	0.98	0.98	0.98
CNN-Softmax	MNIST	97.23%	95.36%	0.95	0.95	0.95
CNN-ReLU	MNIST	73.53%	91.74%	0.92	0.92	0.92
FFNN-Softmax	Fashion-MNIST	98.87%	89.35%	0.89	0.89	0.89
FFNN-ReLU	Fashion-MNIST	92.23%	89.06%	0.89	0.89	0.89
CNN-Softmax	Fashion-MNIST	91.96%	86.08%	0.86	0.86	0.86
CNN-ReLU	Fashion-MNIST	83.24%	85.84%	0.86	0.86	0.86
FFNN-Softmax	WDBC	91.21%	92.40%	0.92	0.92	0.92
FFNN-ReLU	WDBC	87.96%	90.64%	0.91	0.91	0.90

DL-ReLUは、データセットとアーキテクチャ全体でDL-Softmaxと比較可能な性能を達成することが多い。
MNISTでは、FFNN-ReLUはFFNN-Softmaxにほぼ匹敵（97.77%対97.98%）。
MNIST上のCNN-ReLUは収束が遅く、交差検証精度ではCNN-Softmaxに及ばない（73.53%対97.23%）が、テスト精度は91.74%に達する。
Fashion-MNISTでは、FFNN-ReLUはFFNN-Softmaxに近い（89.06%対89.35%のテスト精度）。
Fashion-MNIST上のCNN-ReLUはCNN-Softmaxより交差検証精度が低いが、テスト精度はほぼ同等（85.84%対86.08%）。
WDBCでは、FFNN-ReLUはFFNN-Softmaxに劣り、交差検証とテストの両方で劣後（テスト精度90.64%対92.40%、F1 0.90対0.92）。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。