QUICK REVIEW

[論文レビュー] Rethinking ImageNet Pre-training

Kaiming He, Ross Girshick|arXiv (Cornell University)|Nov 21, 2018

Advanced Neural Network Applications参考文献 39被引用数 99

ひとこと要約

本論文は、COCOでの物体検出とインスタンス分割をスクラッチトレーニングで行う場合、正規化・長い訓練期間・適切なハイパーパラメータ調整を前提とすれば、ImageNet pre-trainedモデルと同等またはそれを上回る性能に達し得ることを示している。ImageNet pre-trainingは主に初期収束を速めるだけで、最終的な精度には必ずしも必要ではない。

ABSTRACT

We report competitive results on object detection and instance segmentation on the COCO dataset using standard models trained from random initialization. The results are no worse than their ImageNet pre-training counterparts even when using the hyper-parameters of the baseline system (Mask R-CNN) that were optimized for fine-tuning pre-trained models, with the sole exception of increasing the number of training iterations so the randomly initialized models may converge. Training from random initialization is surprisingly robust; our results hold even when: (i) using only 10% of the training data, (ii) for deeper and wider models, and (iii) for multiple tasks and metrics. Experiments show that ImageNet pre-training speeds up convergence early in training, but does not necessarily provide regularization or improve final target task accuracy. To push the envelope we demonstrate 50.9 AP on COCO object detection without using any external data---a result on par with the top COCO 2017 competition results that used ImageNet pre-training. These observations challenge the conventional wisdom of ImageNet pre-training for dependent tasks and we expect these discoveries will encourage people to rethink the current de facto paradigm of `pre-training and fine-tuning' in computer vision.

研究の動機と目的

COCOにおける物体検出とセグメンテーションに対してImageNet pre-trainingの必要性を問う。
標準的なベースラインとハイパーパラメータの下で、スクラッチ訓練が同等またはそれを上回る最終性能を達成できるかを評価する。
アーキテクチャやデータレジームを超えてスクラッチ訓練を可能にするために、必要な正規化と訓練長の調整を特定する。
データ規模（全COCO対縮小データ）がpre-trainingの相対的な利点にどのように影響するかを評価する。

提案手法

COCO train2017上でResNet/ResNeXtバックボーンとFPNを用いたMask R-CNNを使用し、val2017でbbox APとmask APを評価する。
固定化されたBatchNormをGroupNormまたはSyncBNに置換して安定したスクラッチ訓練を可能にする。
訓練反復数を増やす（6×スケジュール）ことでスクラッチモデルの収束を促す。
訓練時のスケール拡張とデータ拡張を用いてデータレジーム間のロバスト性を検討する。
さまざまなアーキテクチャ、データスケール、タスク固有指標（bbox AP、mask AP、keypoint AP）に対してスクラッチとImageNet pre-trainingを比較する。
前提訓練なしで高いAPを達成する大規模スクラッチ訓練（GNを用いたX152）を実証する。

実験結果

リサーチクエスチョン

RQ1COCO上の物体検出とインスタンス分割は、スクラッチ訓練時にImageNet-pretrainedモデルと同等の性能に到達できるか？
RQ2検出器の安定したスクラッチ訓練を可能にするために、どの正規化手法が必要か？
RQ3訓練期間はスクラッチの収束と最終精度を事前学習と比べてどのように影響するか？
RQ4ImageNet pre-trainingは正則化効果を提供するのか、それとも特にデータが限られている場合に初期の収束を主に加速するのか？
RQ5スクラッチ訓練されたモデルは局所化に敏感な指標やKeypoint検出でどう性能を発揮するか？

主な発見

Model	Schedule	AP_bbox (val2017)
R50 (random init)	2×	36.8
R50 (random init)	3×	39.5
R50 (random init)	4×	40.6
R50 (random init)	5×	40.7
R50 (random init)	6×	41.3
R50 (with pre-train)	2×	40.3
R50 (with pre-train)	3×	40.8
R50 (with pre-train)	4×	40.9
R50 (with pre-train)	5×	40.9
R50 (with pre-train)	6×	41.1
R101 (random init)	2×	38.2
R101 (random init)	3×	41.0
R101 (random init)	4×	41.8
R101 (random init)	5×	42.2
R101 (random init)	6×	42.7
R101 (with pre-train)	2×	41.8
R101 (with pre-train)	3×	42.3
R101 (with pre-train)	4×	42.3
R101 (with pre-train)	5×	41.9
R101 (with pre-train)	6×	42.2

GN/SyncBNを用い、長い訓練スケジュールを適用することで、COCOでのスクラッチ訓練は複数のベースラインでImageNet-pretrainedモデルの精度と同等またはそれを上回る。
ImageNet pre-trainingは初期収束を速めるが、標準スケジュール下では最終のターゲットタスク精度を必ずしも改善しない。より長い訓練（5×–6×）ではスクラッチモデルが同等またはそれ以上のAPに達する。
スクラッチ訓練はCOCOデータの10%程度しか使わなくても競争力を維持し、より大きなバックボーン（例: X152）をスクラッチ訓練すると val2017で ~50.9 bbox AP および ~43.2 mask AP に到達できる。
局所化に敏感な指標やKeypoint検出ではImageNet pre-trainingの利益が少ない、またはほとんどないことが多く、スクラッチモデルは高重複閾値やKeypointタスクで同等かそれ以上の性能を示す。
データレジーム全般において、適切な正規化と長い最適化が重要であり、データが豊富な場合や分類より局所化を重視するタスクでは事前学習の効果は小さくなる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。