QUICK REVIEW

[論文レビュー] Deep Learning with S-shaped Rectified Linear Activation Units

Xiaojie Jin, Chunyan Xu|arXiv (Cornell University)|Dec 22, 2015

Advanced Neural Network Applications参考文献 17被引用数 97

ひとこと要約

本稿では、ウェーバ＝フェヒナー則とステービンス則という生理心理学的法則を4つの学習可能なパラメータでモデル化することで、凸関数と非凸関数の両方を学習可能な、S字型の修正線形関数（SReLU）を提案する。SReLUは計算コストをほとんど増加させることなく、CIFAR-10、CIFAR-100、MNIST、ImageNetの各データセットにおいて、ReLU、Leaky ReLU、PReLU、Maxoutを上回る最先端の性能向上を達成する。

ABSTRACT

Rectified linear activation units are important components for state-of-the-art deep convolutional networks. In this paper, we propose a novel S-shaped rectified linear activation unit (SReLU) to learn both convex and non-convex functions, imitating the multiple function forms given by the two fundamental laws, namely the Webner-Fechner law and the Stevens law, in psychophysics and neural sciences. Specifically, SReLU consists of three piecewise linear functions, which are formulated by four learnable parameters. The SReLU is learned jointly with the training of the whole deep network through back propagation. During the training phase, to initialize SReLU in different layers, we propose a "freezing" method to degenerate SReLU into a predefined leaky rectified linear unit in the initial several training epochs and then adaptively learn the good initial values. SReLU can be universally used in the existing deep networks with negligible additional parameters and computation cost. Experiments with two popular CNN architectures, Network in Network and GoogLeNet on scale-various benchmarks including CIFAR10, CIFAR100, MNIST and ImageNet demonstrate that SReLU achieves remarkable improvement compared to other activation functions.

研究の動機と目的

既存のReLUベースの活性化関数が非凸関数を学習できないという制限を解消すること。
深層ネットワークにおける凸非線形性と非凸非線形性の両方をモデル化できる汎用的な活性化ユニットの開発。
バックプロパゲーションによるエンドツーエンドの活性化パラメータ学習を可能にしつつ、計算効率を維持すること。
モデルの複雑さを著しく増加させることなく、深層畳み込みニューラルネットワークにおける一般化性能と収束速度の向上。

提案手法

SReLUは、3つのセグメントからなる区分線形関数であり、左斜め（a^l）、右斜め（a^r）、および2つのしきい値（t^l, t^r）の4つの学習可能なパラメータで定義される。
関数はウェーバ＝フェヒナー則の対数的形とステービンス則の累乗的形を模倣し、多様な非線形挙動のモデル化を可能にする。
初期学習段階でSReLUが漏れのあるReLU（leaky ReLU）に似た挙動を示すように制限する「凍結初期化戦略」が採用される。その後、バックプロパゲーションにより徐々にパラメータが適応される。
SReLUは、追加パラメータと計算コストをほとんど増加させない形で、既存の深層ネットワーク（例：Network-in-NetworkやGoogLeNet）に統合可能である。
標準的なバックプロパゲーションを用いてエンドツーエンドで学習され、SReLUのパラメータはネットワーク重みと同時に更新される。
本手法は、CIFAR-10、CIFAR-100、MNIST、ImageNetの複数のベンチマークで評価され、単一ビューおよび拡張済み学習プロトコルの両方を用いて検証されている。

実験結果

リサーチクエスチョン

RQ1アーキテクチャ的制約なしに、活性化関数が凸関数と非凸関数の両方を学習可能か？
RQ2生理心理学的法則（ウェーバ＝フェヒナー則とステービンス則）をモデル化することで、深層ネットワークにおける表現学習が向上するか？
RQ3SReLUは、精度と収束速度の両面で、ReLU、Leaky ReLU、PReLU、Maxoutを上回る性能を示せるか？
RQ4SReLUは、ネットワークの各層における異なる入力分布にどのように適応するか？
RQ5SReLUは、ImageNetのような大規模画像分類タスクにどのような影響を及ぼすか？

主な発見

CIFAR-10では、SReLUがNINと組み合わせてテスト誤差を0.35%まで低下させ、ReLU（0.47%）や他の変種を上回った。
CIFAR-100では、SReLUが12.48%の誤差率を達成し、ReLU（13.12%）やPReLU（12.71%）を上回った。
MNISTでは、SReLUが0.35%の誤差率を達成し、わずか0.35Mパラメータで最高性能を示すDSNモデルと同等の性能を発揮した。
ImageNetでは、SReLUを搭載したGoogLeNetがトップ-1誤差率9.86%を達成し、元のReLUベースのGoogLeNet（11.1%）と比較して1.24%の改善を示した。
SReLUのパラメータは動的に適応される：より上位の層では、入力の大きさに応じてt^rの値が大きくなる傾向にあり、入力分布への強い適応性が示された。
SReLUは多様な関数形を学習する：初期層ではa^r > 1（非凸）、深層部ではa^r ≈ 1（凸）となり、両方の関数形をモデル化できる能力が裏付けられた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。