QUICK REVIEW

[論文レビュー] Noisy Activation Functions

Çaǧlar Gülçehre, Marcin Moczulski|arXiv (Cornell University)|Mar 1, 2016

Adversarial Robustness in Machine Learning参考文献 25被引用数 82

ひとこと要約

この論文では、勾配消失を緩和し、特にハード・サチュレート領域で最適化を改善するために、トレーニング中に制御されたノイズを飽和非線形関数（例：シグモイド、tanh）に注入するノイズ付き活性化関数を導入する。ノイズレベルを時間とともに徐々に減衰させることで、確率的勾配降下法がより効果的に探索できるようになり、画像キャプション生成、系列モデル、ニューラル・チューリングマシンなどのタスクで、最先端または競争力のある性能を達成し、収束性と一般化性能に優れる。

ABSTRACT

Common nonlinear activation functions used in neural networks can cause training difficulties due to the saturation behavior of the activation function, which may hide dependencies that are not visible to vanilla-SGD (using first order gradients only). Gating mechanisms that use softly saturating activation functions to emulate the discrete switching of digital logic circuits are good examples of this. We propose to exploit the injection of appropriate noise so that the gradients may flow easily, even if the noiseless application of the activation function would yield zero gradient. Large noise will dominate the noise-free gradient and allow stochastic gradient descent toexplore more. By adding noise only to the problematic parts of the activation function, we allow the optimization procedure to explore the boundary between the degenerate (saturating) and the well-behaved parts of the activation function. We also establish connections to simulated annealing, when the amount of noise is annealed down, making it easier to optimize hard objective functions. We find experimentally that replacing such saturating activation functions by noisy variants helps training in many contexts, yielding state-of-the-art or competitive results on different datasets and task, especially when training seems to be the most difficult, e.g., when curriculum learning is necessary to obtain good results.

研究の動機と目的

シグモイドやtanhのようなハード・サチュエート型活性化関数が引き起こす勾配消失の課題に対処し、深層ネットワークの学習を促進すること。
ゲーミング機構（例：LSTM、GRU）におけるソフト・サチュエート型非線形関数の限界を克服し、勾配漏れによって真のオン/オフの意思決定が不可能になるのを防ぐこと。
テスト時にはハード・サチュエート型非線形関数を用いて表現力の高いモデルを実現しつつ、ノイズ注入によってトレーニングの安定性を維持すること。
ノイズの徐々な減衰を用いた継続的最適化法を形式化し、困難な学習状況における収束性と一般化性能の向上を図ること。

提案手法

勾配が消失する領域（つまり、|x| が大きい領域）において、活性化関数の出力にノイズを注入することで、バックプロパゲーション中に非ゼロの勾配を維持する。
ノイズの標準偏差を制御する学習可能なノイズスケールパラメータを導入し、トレーニング中にノイズレベルをモデルが適応可能にする。
ノイズを、勾配が消失する問題領域（飽和領域）に限定して適用することで、非線形関数の構造を保ちつつ、探索を可能にする。
ノイズレベルを時間とともに $ c / \sqrt{t+1} $ のようなスケジュールに従って徐々に減衰させることで、模擬アニーリングに類似したプロセスを再現し、探索から活用への移行を実現する。
テスト時にはノイズ付き活性化関数をその期待値に置き換えることで、ゲーミングユニットで勾配の問題なく0または1の明確な意思決定が可能になる。
既存のアーキテクチャ（例：LSTM、GRU、NTM）に変更を加えずに、即座に適用可能なプラグイン型の代替手段としてノイズ付き活性化関数を統合できる。

実験結果

リサーチクエスチョン

RQ1飽和する活性化関数にノイズを注入することで、ハード・ゲーミング機構を備えた深層ネットワークにおける学習安定性と性能が向上するか？
RQ2飽和領域におけるノイズ注入が勾配の流れを向上させ、最適化が悪い局所的最小値に閉じ込められるのを防ぐか？
RQ3ノイズの徐々な減衰は、特にカリキュラム学習を要するタスクにおいて、有効な継続的最適化手法として機能するか？
RQ4ノイズ付き活性化関数は、標準的なシグモイド/tanhおよびReLUベースのモデルに比べ、困難なベンチマークにおいてテスト精度と一般化性能に優れるか？

主な発見

ノイズ付き活性化関数は、ペン・ツリーバンク言語モデリングタスクにおいて、標準的なシグモイドおよびtanhユニットを著しく上回り、競争力あるか、最先端の結果を達成した。
画像キャプション生成タスクでは、ノイズ付きモデルがメテオリックスコア28.9を達成し、基準モデルを上回り、2015年のXuらの最良モデルでさえも上回った（ドロップアウトなしでも）。
ノイズの徐々な減衰を適用したモデルは、ユニーク要素予測タスクで9.53%のテスト誤差を達成し、カリキュラム学習（14.83%）とベースライン（33.28%）を上回った。
ニューラル・チューリングマシンのアソシエイティブ・リコールタスクでは、ノイズ付き活性化関数を用いたNTMがより速く収束し、タスクを正常に完了したが、標準NTMは低誤差に到達できなかった。
ドロップアウトの追加により性能がさらに向上したが、主な利益はノイズ付き活性化機構自体に起因しており、ドロップアウトなしバージョンでもベースラインを上回った。
ノイズレベルの徐々な減衰により、継続的最適化に類似したプロセスが実現され、一般化性能の向上が図られ、かつて最適化が困難とされたモデル（例：区分線形活性化を持つゲーティングRNN）の学習が可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。