Skip to main content
QUICK REVIEW

[論文レビュー] ImageNet pre-trained models with batch normalization

Marcel Simon, Erik Rodner|arXiv (Cornell University)|Dec 5, 2016
Advanced Neural Network Applications参考文献 29被引用数 136
ひとこと要約

本論文は、Caffe向けのImageNet事前学習モデルの新しいセットを提供します。AlexNetおよびVGG19のバッチ正規化バリアントとResNetモデルを含み、従来の公開モデルより性能が向上していることを示しています。また、訓練の詳細と大規模なCNNでのバッチ正規化の実用的なガイダンスについても論じています。

ABSTRACT

Convolutional neural networks (CNN) pre-trained on ImageNet are the backbone of most state-of-the-art approaches. In this paper, we present a new set of pre-trained models with popular state-of-the-art architectures for the Caffe framework. The first release includes Residual Networks (ResNets) with generation script as well as the batch-normalization-variants of AlexNet and VGG19. All models outperform previous models with the same architecture. The models and training code are available at http://www.inf-cv.uni-jena.de/Research/CNN+Models.html and https://github.com/cvjena/cnn-models

研究の動機と目的

  • Caffeの共通アーキテクチャ向けにImageNetの事前学習モデルを公開する動機付け。
  • AlexNetやVGG19のような大規模CNNにバッチ正規化を追加する利点を示す。
  • これらのモデルを再現・微調整するための訓練コードと実践的ガイドラインを提供する。
  • BNバリアントとResNetを用いた既存の公開モデルに対する実証的な利得を示す。

提案手法

  • AlexNetとVGG19を、各畳み込み層および全結合層の後にバッチ正規化を挿入する形で修正する。
  • 局所応答正規化とドロップアウトを削除し、平均引き算を入力BNに置換する。
  • ILSVRC 2012(120万枚画像、1000クラス)で64エポック、バッチサイズ256、モデルごとに異なる初期学習率(AlexNetは0.05、VGG19は0.01、ResNetは0.1)で訓練する。
  • 線形学習率減衰を使用し、BNによりより大きな学習率と安定した統計を可能にし、GPUメモリが制限される場合はファインチューニング時にグローバル統計を有効にする。

実験結果

リサーチクエスチョン

  • RQ1AlexNetとVGG19のBNバリアントおよびResNetは、既存の公開モデルよりImageNet事前学習の性能を改善しますか?
  • RQ2ImageNet上の大規模CNNにおける訓練ダイナミクスと最終的な誤差率に対するバッチ正規化の影響はどのようか。
  • RQ3手動の平均引き算なしで、堅牢な統計を用いてBN対応モデルのファインチューニングを行うことは可能か。
  • RQ4BN強化アーキテクチャを効果的に訓練するために必要な実用的な訓練設定(バッチサイズ、学習率、データ拡張)は何か。

主な発見

モデルTop-1誤差(我々の)Top-1誤差(元)Top-5誤差(我々の)Top-5誤差(元)
AlexNet39.9%42.6%18.1%19.6%
VGG1926.9%28.7%8.8%9.9%
ResNet-1036.1%14.8%
ResNet-5024.6%24.7%7.6%7.8%
  • BNバリアントのAlexNetとVGG19は、従来公表されたモデルよりも低いTop-1およびTop-5誤差を達成する。
  • ResNetモデルは、BNを用いた場合に公開済みの先行残差ネットワークと競合し、場合によってはそれを上回る。
  • 提供されたすべてのモデルは、同じアーキテクチャの以前に訓練されたモデルをILSVRC 2012の検証セットで上回る。
  • BNはより高い学習率の使用を可能にし、大規模CNNの汎化能力を向上させることがある。
  • 入力BN層の存在により、平均引き算なしでBN対応ネットワークを訓練することが可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。