QUICK REVIEW

[論文レビュー] Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification

Kaiming He, Xiangyu Zhang|arXiv (Cornell University)|Feb 6, 2015

Advanced Neural Network Applications参考文献 4被引用数 1,008

ひとこと要約

この論文は、トレーニング中に負の勾配パラメータを学習するパラメトリックなリプシリアン線形ユニット（PReLU）活性化関数と、深層リプシリアンネットワークに特化した新しい初期化手法を導入する。これらの革新により、非常に深いネットワークを完全に新規からトレーニング可能となり、ImageNet 2012でトップ5誤差4.94％を達成した。これは人間水準のパフォーマンス（5.1％）を上回り、ILSVRC 2014優勝者であるGoogLeNet（6.66％）と比較して26％の相対的改善を達成した。

ABSTRACT

Rectified activation units (rectifiers) are essential for state-of-the-art neural networks. In this work, we study rectifier neural networks for image classification from two aspects. First, we propose a Parametric Rectified Linear Unit (PReLU) that generalizes the traditional rectified unit. PReLU improves model fitting with nearly zero extra computational cost and little overfitting risk. Second, we derive a robust initialization method that particularly considers the rectifier nonlinearities. This method enables us to train extremely deep rectified models directly from scratch and to investigate deeper or wider network architectures. Based on our PReLU networks (PReLU-nets), we achieve 4.94% top-5 test error on the ImageNet 2012 classification dataset. This is a 26% relative improvement over the ILSVRC 2014 winner (GoogLeNet, 6.66%). To our knowledge, our result is the first to surpass human-level performance (5.1%, Russakovsky et al.) on this visual recognition challenge.

研究の動機と目的

従来のReLU活性化関数の限界を克服することで、画像分類における深層ニューラルネットワークのパフォーマンスを向上させること。
ReLUを一般化し、データパターンに適応可能な学習可能な活性化関数を開発すること。
非常に深いアーキテクチャのエンドツーエンドトレーニングを可能にする、深層リプシリアンネットワークに特化した堅牢な重み初期化手法を設計すること。
ImageNet 2012分類ベンチマークで最先端のパフォーマンスを達成し、人間水準の精度を超えること。

提案手法

パラメトリックなリプシリアン線形ユニット（PReLU）を提案し、f(y_i) = max(0, y_i) + a_i * min(0, y_i) で定義する。ここで a_i はチャンネルごとの学習可能なパラメータである。
1つの層内で全チャンネルに共有される学習可能なパラメータ a を共有するチャンネル共有型PReLUの変種を導入する。
リプシリアンの非線形性を考慮した理論的重み初期化スキームを導出することで、非常に深いネットワークにおける安定した勾配伝播を確保する。
PReLUパラメータと他のネットワーク重みを同時に最適化するエンドツーエンドのバックプロパゲーションを採用し、計算コストの増加を最小限に抑える。
一般化性能の向上と過学習の低減を図るため、ImageNet 2012で積極的なデータ拡張と大規模なトレーニングを実施する。
単一モデルの結果を超えるパフォーマンスをさらに向上させるために、マルチモデルアンサンブル戦略を採用する。

実験結果

リサーチクエスチョン

RQ1固定されたReLUと比較して、学習可能な活性化関数は深層ネットワークのパフォーマンスを向上させることができるか？
RQ2理論的裏付けのある初期化手法は、非常に深いリプシリアンネットワークを完全に新規からトレーニング可能にするか？
RQ3深層PReLUネットワークは、ImageNet 2012で人間水準のパフォーマンスを超える優れた正確性を達成できるか？
RQ4PReLUと新しい初期化手法は、非常に深いアーキテクチャにおける収束性と一般化性能にどのように影響を与えるか？

主な発見

提案されたPReLUネットワークは、ImageNet 2012のテストセットでトップ5誤差率4.94％を達成した。これは、人間水準のパフォーマンス（5.1％）を上回る最初の報告結果である。
この手法は、ILSVRC 2014優勝者であるGoogLeNet（トップ5誤差6.66％）と比較して26％の相対的改善を達成した。
PReLU活性化関数は、計算コストをほとんど増加させず、過学習のリスクも最小限に抑えながら、モデルのフィッティング性能を向上させる。
新しい初期化手法により、30層の重み層を有する非常に深いネットワークを完全に新規から安定してトレーニング可能となった。
チームのILSVRC 2014コンペティション結果（平均誤差8.06％）と比較して、1000クラス中の824クラスでトップ5誤差が低減された。
この手法は、細分化された認識タスクにおいて優れた性能を示し、人間が困難に感じるカテゴリ（例：「coucal」や「yellow lady’s slipper」）を正しく分類できた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。