QUICK REVIEW

[論文レビュー] LiSHT: Non-Parametric Linearly Scaled Hyperbolic Tangent Activation Function for Neural Networks

Swalpa Kumar Roy, Suvojit Manna|arXiv (Cornell University)|Jan 1, 2019

Human Pose and Action Recognition被引用数 26

ひとこと要約

本論文では、双曲正接関数を線形スケーリングすることで非有界な出力を得る非パラメトリックな線形スケール双曲正接活性化関数であるLiSHTを提案する。この手法により非線形性が向上し、勾配消失問題が軽減される。画像、ベクトル、NLPタスクにおける評価では、ReLU、Swish、その他の最先端活性化関数と比較して、滑らかな損失ランドスケープ、対称的な重み分布、優れた活性化ダイナミクスを実現し、CIFAR100でResNetを用いた際の精度向上が最大9.48%に達する。

ABSTRACT

The activation function in neural network introduces the non-linearity required to deal with the complex tasks. Several activation/non-linearity functions are developed for deep learning models. However, most of the existing activation functions suffer due to the dying gradient problem and non-utilization of the large negative input values. In this paper, we propose a Linearly Scaled Hyperbolic Tangent (LiSHT) for Neural Networks (NNs) by scaling the Tanh linearly. The proposed LiSHT is non-parametric and tackles the dying gradient problem. We perform the experiments on benchmark datasets of different type, such as vector data, image data and natural language data. We observe the superior performance using Multi-layer Perceptron (MLP), Residual Network (ResNet) and Long-short term memory (LSTM) for data classification, image classification and tweets classification tasks, respectively. The accuracy on CIFAR100 dataset using ResNet model with LiSHT is improved by 9.48, 3.40, 3.16, 4.26, and 1.17\% as compared to Tanh, ReLU, PReLU, LReLU, and Swish, respectively. We also show the qualitative results using loss landscape, weight distribution and activations maps in support of the proposed activation function.

研究の動機と目的

ReLU や Tanh のような既存の活性化関数における勾配消失問題と負の入力の有効利用の限界を解決すること。
非パラメトリックな活性化関数を設計し、非線形性を向上させるとともに、対称性と滑らかさを維持すること。
より望ましい損失ランドスケープとバランスの取れた重み分布を実現することで、訓練の安定性と収束性を向上させること。
画像分類、ベクトルデータ処理、シーケンスモデリングを含む多様なディープラーニングタスクにおいて、提案されたLiSHTの評価を行うこと。
ベンチマークデータセット上で、ReLU、Swish、PReLU、LReLUなどの最先端活性化関数と比較して、優れた性能を示すことを実証すること。

提案手法

LiSHTは、双曲正接関数を線形スケーリングすることで導出され、出力を元来の有界な[-1, 1]範囲から非有界範囲に変換することで、非線形性が向上する。
活性化関数は非パラメトリックであるため、学習可能なパラメータを有さず、アーキテクチャを問わず安定性と一般化性能を確保する。
関数は対称的かつ滑らかで、非単調であるように設計されており、正負の入力領域においてバランスの取れた勾配フローを促進する。
多層パーセプトロン（MLP）、残差ネットワーク（ResNet）、長短期記憶（LSTM）モデルを用いて、多様なデータセット上で手法を評価する。
可視化分析には、損失ランドスケープの可視化（2次元および3次元）、重み分布マッピング、活性化マップの比較を含め、訓練ダイナミクスを検証する。
MNIST、CIFAR100、およびツイッター感情分類などのベンチマークデータセットを用いて実験を行い、モダリティを跨ぐ性能を評価する。

実験結果

リサーチクエスチョン

RQ1線形スケールされたTanhのバージョンが、ReLUおよびその変種よりも勾配消失問題の緩和において優れているか？
RQ2LiSHTは、収束性と非凸性の観点から、深層ネットワークにおける損失ランドスケープの構造にどのように影響を与えるか？
RQ3LiSHTは、ReLU や Swish と比較して、重み分布の対称性と範囲をどの程度向上させるか？
RQ4LiSHTは、畳み込みネットワークおよび再帰的ネットワークにおける活性化マップの品質と特徴表現を向上させるか？
RQ5画像分類、ベクトル分類、シーケンス分類タスクにおいて、LiSHTはSOTA活性化関数と比較して精度で優れているか？

主な発見

ResNetを用いたCIFAR100では、LiSHTはTanhに対して9.48%、ReLUに対して3.40%、PReLUに対して3.16%、LReLUに対して4.26%、Swishに対して1.17%の精度向上を達成した。
LiSHTはReLU や Swish より滑らかでより凸に近い損失ランドスケープを生成し、訓練中に高速かつ安定した収束を実現した。
LiSHTにおける重み分布は対称的であり、絶対値が高めの範囲（例：-8 から 6）にまで拡張されている。一方、ReLUは正の偏向、Tanhは-5から4の有界範囲に制限される。
LiSHTを用いた活性化マップはノイズが少なく、特徴マップ全体にわたって均一な分布を示しており、より良い特徴学習を示している。
LiSHTの1階および2階微分の分析から、標準的なTanh や ReLU と比較して非線形性が向上していることが確認された。
LiSHTは、画像分類（ResNet）およびシーケンスモデリング（ツイートにおけるLSTM）の両方で、すべてのベースラインを上回り、広範な適用可能性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。