[論文レビュー] Deep Learning using Rectified Linear Units (ReLU)
この研究は、深層ニューラルネットワークにおける分類関数としてReLUを使用することを検証し、MNIST、Fashion-MNIST、WDBCデータセットに対してFFNNとCNNアーキテクチャでDL-ReLUとDL-Softmaxを比較します。
We introduce the use of rectified linear units (ReLU) as the classification function in a deep neural network (DNN). Conventionally, ReLU is used as an activation function in DNNs, with Softmax function as their classification function. However, there have been several studies on using a classification function other than Softmax, and this study is an addition to those. We accomplish this by taking the activation of the penultimate layer $h_{n - 1}$ in a neural network, then multiply it by weight parameters $θ$ to get the raw scores $o_{i}$. Afterwards, we threshold the raw scores $o_{i}$ by $0$, i.e. $f(o) = \max(0, o_{i})$, where $f(o)$ is the ReLU function. We provide class predictions $\hat{y}$ through argmax function, i.e. argmax $f(x)$.
研究の動機と目的
- 深層ネットワークにおいて、最終分類器としてのSoftmaxをReLUに置き換える動機づけ。
- 標準ベンチマークでDL-ReLUの性能をDL-Softmaxと比較評価する。
- トレーニング収束性・学習ダイナミクスを、アーキテクチャとデータセット全体で分析する。
- ReLU分類の潜在的な欠点を特定し、今後の改善案を提案する。
提案手法
- SoftmaxとReLUを最終層分類器とする2つのネットワークタイプ(FFNNとCNN)を使用する。
- 公平な比較を可能にするため、同一のハイパーパラメータを用いてAdam最適化アルゴリズムで訓練する。
- MNIST/Fashion-MNISTでは正規化とPCAによる次元削減でデータを前処理する。
- Softmaxクロスエントロピー損失をReLUベースのクロスエントロピー定式化に置換し、通常どおり勾配をバックプロパゲーションする。
- 10分割交差検証、テスト精度、適合率、再現率、F1スコア、および混同行列を用いて評価する。
実験結果
リサーチクエスチョン
- RQ1Softmaxを分類層として置換したReLUが、MNIST、Fashion-MNIST、およびWDBCでSoftmaxベースのモデルと同等または優れた精度を示すか?
- RQ2FFNNとCNNのアーキテクチャ全体で、ReLUベースの分類が訓練収束性と学習ダイナミクスにどう影響するか?
- RQ3ReLUを最終分類器として使用した場合のクラスごとの性能パターン(精度/再現率/ F1)とは何か?
- RQ4DL-ReLUの性能に影響を与える制約(例:死んだReLUなど)は何で、どう緩和できるか?
主な発見
| モデル | データセット | 訓練クロスバリデーション | テスト精度 | 適合率 | 再現率 | F1スコア |
|---|---|---|---|---|---|---|
| FFNN-Softmax | MNIST | 99.29% | 97.98% | 0.98 | 0.98 | 0.98 |
| FFNN-ReLU | MNIST | 98.22% | 97.77% | 0.98 | 0.98 | 0.98 |
| CNN-Softmax | MNIST | 97.23% | 95.36% | 0.95 | 0.95 | 0.95 |
| CNN-ReLU | MNIST | 73.53% | 91.74% | 0.92 | 0.92 | 0.92 |
| FFNN-Softmax | Fashion-MNIST | 98.87% | 89.35% | 0.89 | 0.89 | 0.89 |
| FFNN-ReLU | Fashion-MNIST | 92.23% | 89.06% | 0.89 | 0.89 | 0.89 |
| CNN-Softmax | Fashion-MNIST | 91.96% | 86.08% | 0.86 | 0.86 | 0.86 |
| CNN-ReLU | Fashion-MNIST | 83.24% | 85.84% | 0.86 | 0.86 | 0.86 |
| FFNN-Softmax | WDBC | 91.21% | 92.40% | 0.92 | 0.92 | 0.92 |
| FFNN-ReLU | WDBC | 87.96% | 90.64% | 0.91 | 0.91 | 0.90 |
- DL-ReLUは、データセットとアーキテクチャ全体でDL-Softmaxと比較可能な性能を達成することが多い。
- MNISTでは、FFNN-ReLUはFFNN-Softmaxにほぼ匹敵(97.77%対97.98%)。
- MNIST上のCNN-ReLUは収束が遅く、交差検証精度ではCNN-Softmaxに及ばない(73.53%対97.23%)が、テスト精度は91.74%に達する。
- Fashion-MNISTでは、FFNN-ReLUはFFNN-Softmaxに近い(89.06%対89.35%のテスト精度)。
- Fashion-MNIST上のCNN-ReLUはCNN-Softmaxより交差検証精度が低いが、テスト精度はほぼ同等(85.84%対86.08%)。
- WDBCでは、FFNN-ReLUはFFNN-Softmaxに劣り、交差検証とテストの両方で劣後(テスト精度90.64%対92.40%、F1 0.90対0.92)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。