QUICK REVIEW

[論文レビュー] Data-dependent Initializations of Convolutional Neural Networks

Philipp Krähenbühl, Carl Doersch|arXiv (Cornell University)|Nov 21, 2015

Neural Networks and Applications被引用数 90

ひとこと要約

この論文は、畳み込みニューラルネットワーク（CNN）のデータ依存型初期化手法を提案する。この手法は、訓練データの統計的性質に基づいてネットワークの重みをスケーリングし、層間で均一な勾配フローを確保する。活性化統計の分析と層ごとのスケーリングを適用することで、トレーニングの収束を加速し、画像分類およびオブジェクト検出において、自己教師あり事前学習の最先端性能に匹敵または上回る性能を達成する。また、事前学習時間を最大1,000倍短縮し、小規模データセットにおける汎化性能を向上させる。

ABSTRACT

Convolutional Neural Networks spread through computer vision like a wildfire, impacting almost all visual tasks imaginable. Despite this, few researchers dare to train their models from scratch. Most work builds on one of a handful of ImageNet pre-trained models, and fine-tunes or adapts these for specific tasks. This is in large part due to the difficulty of properly initializing these networks from scratch. A small miscalibration of the initial weights leads to vanishing or exploding gradients, as well as poor convergence properties. In this work we present a fast and simple data-dependent initialization procedure, that sets the weights of a network such that all units in the network train at roughly the same rate, avoiding vanishing or exploding gradients. Our initialization matches the current state-of-the-art unsupervised or self-supervised pre-training methods on standard computer vision tasks, such as image classification and object detection, while being roughly three orders of magnitude faster. When combined with pre-training methods, our initialization significantly outperforms prior work, narrowing the gap between supervised and unsupervised pre-training.

研究の動機と目的

深くないCNNをスクラッチからトレーニングする際の収束不良や勾配消失／爆発の課題に対処すること。
小規模データセットにおける汎化性能に顕著に影響を与える活性化のデータ駆動的統計的性質を同定すること。
事前学習やアーキテクチャの変更を必要とせず、より高速かつ安定したトレーニングを可能にする、シンプルで高速な初期化手法を開発すること。
限られたラベル付きデータを有する下流タスクにおいて、ImageNet事前学習への依存度を低減すること。

提案手法

小さな訓練データバッチ上で特徴マップの平均と標準偏差を計算することで、各層の活性化統計を推定する。
各畳み込み層の重みをスケーリングし、すべての層で出力活性化の分散がほぼ等しくなるようにする。
入力統計に基づいて重み行列のスケールを調整することで、勾配ノルムが層間で概ね均一になるように初期化を強制する。
特徴マップのk-meansクラスタリングを用いて有効受容 field を推定し、各層のスケーリング要因を精緻化する。
トレーニングの前に行われるため、小さなデータサブセットを1回の順伝播のみで処理するため、計算効率が非常に高い。
逆誤差伝搬や追加の損失項を必要としないため、あらゆるCNNアーキテクチャと互換性がある。

実験結果

リサーチクエスチョン

RQ1事前学習を伴わないデータ駆動型初期化は、CNNのトレーニング収束と汎化性能を向上させることができるか？
RQ2特徴活性化の統計的性質は、微調整時の勾配フローとモデル性能にどのように影響を与えるか？
RQ3シンプルで高速な初期化手法は、複雑な自己教師あり事前学習手法の性能に匹敵または上回ることができるか？
RQ4データ依存型初期化は、低データ環境におけるImageNet事前学習の必要性を低減するか？
RQ5この手法は、補助分類器などのアーキテクチャ的変更なしに、より深いネットワークの安定したトレーニングを可能にするか？

主な発見

提案手法は、事前学習時間を3桁短縮（54秒まで）し、PASCAL VOC2007画像分類でトップ1正解率56.6％を達成し、最先端の自己教師あり手法に匹敵する。
Doerschら（2015）の無教師事前学習と組み合わせることで、PASCAL VOC2007検出でmAP 65.3％を達成し、先行研究を上回る性能を示した。
ImageNetでは、初期トレーニング段階で収束が最大10倍速くなり、標準初期化と比較して最初の10,000イテレーションで誤差の低下が著しく速くなった。
k-meansベースの初期化はランダム初期化を上回り、10万イテレーション後に参照用のImageNet事前学習モデルと同等の性能を達成した。
CaffeNetからLRN層を削除しても、提案手法を用いることで性能が劣化しなかったため、適切な重みスケーリングがあれば正規化層が冗長である可能性がある。
GoogLeNetでは、補助ヘッドを1つに減らした単一分類器でも、元の3ヘッドアーキテクチャと同等の収束速度を達成でき、深層ネットワークにおける堅牢性を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。