QUICK REVIEW

[論文レビュー] Revise Saturated Activation Functions

Bing Xu, Ruitong Huang|arXiv (Cornell University)|Feb 18, 2016

Model Reduction and Neural Networks参考文献 8被引用数 45

ひとこと要約

この論文は、深層ネットワークにおける学習安定性を向上させるために、スケーリングされたロジスティックシグモイドとペナルティ付きtanh活性化関数を提案する。シグモイド関数をゼロ平均かつゼロ付近で急勾配となるようにスケーリングし、tanhの負の領域に対してペナルティを課すことで、著者らはReLUやleaky ReLUと同等の性能を達成し、飽和性が必然的に消失勾配を引き起こすという仮定に挑戦する。

ABSTRACT

In this paper, we revise two commonly used saturated functions, the logistic sigmoid and the hyperbolic tangent (tanh). We point out that, besides the well-known non-zero centered property, slope of the activation function near the origin is another possible reason making training deep networks with the logistic function difficult to train. We demonstrate that, with proper rescaling, the logistic sigmoid achieves comparable results with tanh. Then following the same argument, we improve tahn by penalizing in the negative part. We show that "penalized tanh" is comparable and even outperforms the state-of-the-art non-saturated functions including ReLU and leaky ReLU on deep convolution neural networks. Our results contradict to the conclusion of previous works that the saturation property causes the slow convergence. It suggests further investigation is necessary to better understand activation functions in deep architectures.

研究の動機と目的

ロジスティックシグモイドによる深層ニューラルネットワークの学習困難を解消するため、非ゼロ中心化という以外の軽視されがちな要因を同定すること。
両者ともに飽和性を持つにもかかわらずtanhがシグモイドよりも優れる理由を、原点付近での勾配挙動に焦点を当てて調査すること。
学習安定性を維持しつつ、非飽和ReLUの変種と同等の性能を発揮する改良された飽和活性化関数を提案すること。
深層ネットワークにおける消失勾配が飽和性そのものに起因するという一般的な信念に挑戦すること。

提案手法

ゼロ平均かつ初期勾配が急であるようにスケーリングされたシグモイド関数を提案：f(x) = 4 * sigmoid(4x) - 2。
Xavier初期化の原則に従い、深層ネットワークにおける分散保存の理論的条件を導出し、特にゼロ付近での勾配とオフセットが重要な要因であることを特定する。
負の活性化領域をペナルティ化するためのペナルティ付きtanh関数を導入：x > 0 の場合 f(x) = tanh(x)、x ≤ 0 の場合 f(x) = a * tanh(x)（a ∈ (0,1)）。
すべての実験で同一の初期化（Xavier）と学習設定（MXNet）を用いて、公平な比較を保証する。
バッチ正規化を用いず、CIFAR-100上で33層のInceptionネットワークを学習させ、汎化性能と収束速度を評価する。
複数回の実行における訓練/テスト精度と収束速度に基づき、活性化関数を比較する。

実験結果

リサーチクエスチョン

RQ1標準的なロジスティックシグモイドは、tanhと同様に飽和性を持つにもかかわらず、なぜ深層ネットワークの学習に不適切なのか？
RQ2活性化関数がゼロ付近で示す勾配とオフセットが、勾配の流れと学習安定性に果たす役割は何か？
RQ3負の領域をペナルティ化した飽和活性化関数は、非飽和ReLUの変種を上回る性能を発揮できるか？
RQ4特にf(0)とf’(0)に注目した場合、活性化関数のゼロ付近の形状が、飽和性そのものよりもネットワーク性能を決定づけるのか？

主な発見

スケーリングされたシグモイド（4 * sigmoid(4x) - 2）は、CIFAR-100で89.39％の訓練精度と59.11％のテスト精度を達成し、学習可能でtanhと同等の性能を示している。
a = 0.25 のペナルティ付きtanhは、99.75％の訓練精度と70.43％のテスト精度を達成し、標準tanh（96.94％と61.99％）を上回り、leaky ReLUに近い性能に達している。
ペナルティ付きtanhは、標準tanhよりも2倍以上も速く収束しており、深層ネットワークにおける勾配の流れが改善されていることが示唆される。
さまざまな活性化関数の性能は、特にf(0)とf’(0)の挙動と強く相関しており、飽和性そのものよりも重要である。
この結果は、飽和性が消失勾配を引き起こすという一般的な信念に反しており、活性化関数設計において局所的な勾配とオフセットをより注意深く考慮する必要があることを示唆する。
飽和性を持つにもかかわらず、ペナルティ付きtanhはleaky ReLU（テスト精度70.64％）とほぼ同等の性能を発揮しており、負の領域が適切にペナルティ化されていれば、飽和性そのものが本質的に有害ではないことが示されている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。