[論文レビュー] Rethinking Pre-training and Self-training
論文は視覚タスクにおける事前学習と自己学習を比較し、強力なデータ拡張とより多くのラベルなしデータが事前学習の価値を低減させる一方で、自己学習は一貫して利益をもたらし、事前学習が有害になる場合でも効果を提供することを示す。自己学習の追加的な利点を実証し、COCOとPASCALで自己学習による新しい最先端結果を報告する。
Pre-training is a dominant paradigm in computer vision. For example, supervised ImageNet pre-training is commonly used to initialize the backbones of object detection and segmentation models. He et al., however, show a surprising result that ImageNet pre-training has limited impact on COCO object detection. Here we investigate self-training as another method to utilize additional data on the same setup and contrast it against ImageNet pre-training. Our study reveals the generality and flexibility of self-training with three additional insights: 1) stronger data augmentation and more labeled data further diminish the value of pre-training, 2) unlike pre-training, self-training is always helpful when using stronger data augmentation, in both low-data and high-data regimes, and 3) in the case that pre-training is helpful, self-training improves upon pre-training. For example, on the COCO object detection dataset, pre-training benefits when we use one fifth of the labeled data, and hurts accuracy when we use all labeled data. Self-training, on the other hand, shows positive improvements from +1.3 to +3.4AP across all dataset sizes. In other words, self-training works well exactly on the same setup that pre-training does not work (using ImageNet to help COCO). On the PASCAL segmentation dataset, which is a much smaller dataset than COCO, though pre-training does help significantly, self-training improves upon the pre-trained model. On COCO object detection, we achieve 54.3AP, an improvement of +1.5AP over the strongest SpineNet model. On PASCAL segmentation, we achieve 90.5 mIOU, an improvement of +1.5% mIOU over the previous state-of-the-art result by DeepLabv3+.
研究の動機と目的
- ImageNetの事前学習が、異なるデータ拡張強度とラベル付きデータ量の下で物体検出とセグメンテーションに有効であるかを評価する。
- ImageNetとOpen Imagesのラベルなしデータを用いた自己学習を、事前学習の代替として評価する。
- 監督付き事前学習、自己教師付き事前学習、自己学習を比較し、それらの相対的な利点と相互作用を明らかにする。
- 自己学習のスケーラビリティと柔軟性を、アーキテクチャ、データセット、タスク(検出とセグメンテーション)全般で示す。
提案手法
- 4つのポリシー(Augment-S1 から Augment-S4 まで)でデータ拡張強度を体系的に変化させる。
- COCOで物体検出にはEfficientNet-B7をバックボーンとしたRetinaNetを使用し、最先端比較のためにSpineNetの派生を用いる。
- ラベルなしデータ(ImageNet, Open Images)からの疑似ラベルを用いた教員-生徒フレームワークで自己学習を適用する。
- 初期化として監督付き ImageNet 事前学習と自己教師付き事前学習(SimCLR)を評価する。
- 事前学習、自己学習、ジョイント最適化の併用による統合的な利得を評価し、相乗効果を調査する。
実験結果
リサーチクエスチョン
- RQ1ImageNetの事前学習は、異なるデータ拡張強度とラベル付きデータサイズの下でCOCOのオブジェクト検出とPASCALのセグメンテーションに有効か?
- RQ2事前学習が害を及ぼす場合でも自己学習は堅牢で有益かつ拡張とどう相互作用するか?
- RQ3 supervisedとself-supervisedの事前学習はCOCO/セグメンテーションタスクへどの程度移行性があるか?
- RQ4自己学習はデータセットとアーキテクチャを越えてSOTAを達成できるか、事前学習と併用すると追加的な利益は得られるか?
主な発見
- より強いデータ拡張とより多くのラベル付きデータは事前学習の利益を低減させるか、場合によっては反転させる。強い拡張ではCOCOで-1.0 AP程度の害が生じることもある。
- 自己学習はデータ規模の異なる領域で一貫して利益を生み出し、事前学習が有害な場合でも強い拡張下でCOCOで +1.3 AP の利益を達成する。
- 自己学習の利得はデータセットサイズ(20%–100%)を超えて persistence し、事前学習と併用すると、統合の利得はどちらか一方のみを上回る。
- 自己学習の自己教師付き事前学習(SimCLR)は監督付きImageNet事前学習と同程度の性能を示し、データ量多い/拡張が強い設定ではCOCOで害を受ける一方、自己学習は利益をもたらす。
- COCOではOpen Imagesを用いた自己学習が54.3 APを達成し、以前の SpineNet ベースラインを+1.5 AP上回る。PASCAL VOC 2012ではNAS-FPN/EfficientNetを用いた自己学習で90.5 mIOU、従来の最先端より+1.5%上回る。
- ジョイント学習と事前学習・自己学習・ジョイント最適化の組み合わせはさらなる改善を生み出し、相補的な利点を示唆する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。