QUICK REVIEW

[論文レビュー] Improving Deep Learning by Inverse Square Root Linear Units (ISRLUs)

Brad Carlile, Guy Delamarter|arXiv (Cornell University)|Oct 27, 2017

Advanced Neural Network Applications参考文献 5被引用数 42

ひとこと要約

この論文は、ReLU や ELU よりも高速な収束とより優れた一般化を実現する、新しい活性化関数である逆平方根線形ユニット（ISRLU）を導入する。ISRLU は、計算コストが ELU よりも低く、滑らかで微分可能な負の飽和を実現することで、特に CPU やハードウェア最適化された推論において CNN や RNN に有益である。

ABSTRACT

We introduce the "inverse square root linear unit" (ISRLU) to speed up learning in deep neural networks. ISRLU has better performance than ELU but has many of the same benefits. ISRLU and ELU have similar curves and characteristics. Both have negative values, allowing them to push mean unit activation closer to zero, and bring the normal gradient closer to the unit natural gradient, ensuring a noise-robust deactivation state, lessening the over fitting risk. The significant performance advantage of ISRLU on traditional CPUs also carry over to more efficient HW implementations on HW/SW codesign for CNNs/RNNs. In experiments with TensorFlow, ISRLU leads to faster learning and better generalization than ReLU on CNNs. This work also suggests a computationally efficient variant called the "inverse square root unit" (ISRU) which can be used for RNNs. Many RNNs use either long short-term memory (LSTM) and gated recurrent units (GRU) which are implemented with tanh and sigmoid activation functions. ISRU has less com- putational complexity but still has a similar curve to tanh and sigmoid.

研究の動機と目的

深層学習における ReLU や ELU の限界を克服するため、より優れた学習ダイナミクスを有する新しい活性化関数を導入すること。
畳み込み演算がより効率的になる中で、活性化関数の計算オーバーヘッドを低減すること。
CNN や RNN における ISRLU の実現可能性と性能を検証し、ハードウェア最適化された実装を含むこと。
負の活性化値と滑らかな勾配を通じて、バイアスシフトを低減し、一般化性能を向上させることの能力を評価すること。

提案手法

ISRLU を区分的関数として提案：x ≥ 0 の場合 f(x) = x、x < 0 の場合 f(x) = x / √(1 + αx²)、ここで α は学習可能なハイパーパramータ。
1 階微分を導出：x ≥ 0 の場合 f’(x) = 1、x < 0 の場合 f’(x) = [1 / √(1 + αx²)]³ とし、滑らかな勾配を保証。
RNN 用に ISRU をバリエーションとして導入：f(x) = x / √(1 + αx²)、正の入力には恒等写像を含まない。
実験では、ADAM 最適化法、トレuncated正規分布による重み初期化、バッチ正則化を標準的な訓練プロトコルとして採用。
MNIST において、複数の CNN および RNN アーキテクチャで ISRLU の性能を ReLU、ELU、ISRU と比較。
Intel Xeon Platinum 8160 を用いて、1出力要素あたりのサイクル数を用いて計算効率を評価し、ISRLU が ELU よりも活性化コストが低いことを示した。

実験結果

リサーチクエスチョン

RQ1ISRLU は、深層 CNN において、ReLU や ELU よりも学習速度と一般化性能に優れているか？
RQ2ELU よりも計算複雑度が低い ISRLU の利点が、CPU やハードウェア最適化された環境で実際に測定可能な性能向上に繋がるか？
RQ3ISRLU は、ELU と同様にバイアスシフトを効果的に低減し、平均活性化値をゼロに近づけることができるか？
RQ4計算効率に優れるため、ISRU は LSTM や GRU のような RNN における tanh やシグモイドの代替として適しているか？
RQ5ISRLU の学習可能なハイパーパramータ α が、異なるネットワークの深さやアーキテクチャにおいてモデル性能と収束に与える影響は何か？

主な発見

MNIST において、α=1.0 と α=3.0 の ISRLU は、それぞれ 99.30% および 99.32% のテスト精度を達成し、同条件で ReLU（99.17%）や ELU（99.09%）を上回った。
ISRLU は、α=3.0 の場合、交差エントロピー損失が 2.308 と低く抑えられ、ReLU（2.644）や ELU（2.395）よりも一般化性能に優れたことが示された。
ISRLU の訓練誤差は、ReLU や ELU よりも急速に低下し、最適化プロセスにおける収束が速いことが確認された。
ISRU を用いた RNN では、tanh よりも 3〜6 倍の高速化が達成され、x86 アーキテクチャに応じてシグモイドと同等またはより優れた性能を示した。
ISRLU の計算コストは ELU よりも顕著に低く、3x1 および 1x3 の Inception スタイルのフィルタでは、1出力要素あたりのサイクル数が約 0.51 まで削減された。
ISRLU の滑らかで連続的な微分可能性と負の飽和特性により、バイアスシフトが低減され、勾配の流れが改善され、より高速な学習が可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。