[論文レビュー] An Analysis of Pre-Training on Object Detection
この論文は、物体検出のためのCNNを事前学習すること(画像分類と対比)が、検出・分割・分類への転移にどう影響するかを分析し、検出の事前学習は局在化タスクに優れる一方、分類には悪影響を及ぼす可能性があることを示している。
We provide a detailed analysis of convolutional neural networks which are pre-trained on the task of object detection. To this end, we train detectors on large datasets like OpenImagesV4, ImageNet Localization and COCO. We analyze how well their features generalize to tasks like image classification, semantic segmentation and object detection on small datasets like PASCAL-VOC, Caltech-256, SUN-397, Flowers-102 etc. Some important conclusions from our analysis are --- 1) Pre-training on large detection datasets is crucial for fine-tuning on small detection datasets, especially when precise localization is needed. For example, we obtain 81.1% mAP on the PASCAL-VOC dataset at 0.7 IoU after pre-training on OpenImagesV4, which is 7.6% better than the recently proposed DeformableConvNetsV2 which uses ImageNet pre-training. 2) Detection pre-training also benefits other localization tasks like semantic segmentation but adversely affects image classification. 3) Features for images (like avg. pooled Conv5) which are similar in the object detection feature space are likely to be similar in the image classification feature space but the converse is not true. 4) Visualization of features reveals that detection neurons have activations over an entire object, while activations for classification networks typically focus on parts. Therefore, detection networks are poor at classification when multiple instances are present in an image or when an instance only covers a small fraction of an image.
研究の動機と目的
- 物体検出の事前学習が検出、分割、分類タスクへどの程度一般化するかを評価する。
- 複数のターゲットデータセットにおいて、検出の事前学習と分類の事前学習を比較する。
- 内部の特徴表現と局所化能力と分類能力を理解する。
- データセットサイズと境界ボックス注釈が転移性能に与える影響を評価する。
提案手法
- 大規模な検出データセット(OpenImages, ImageNet-Loc, COCO)でCNNバックボーンを事前学習し、ImageNet-Cls事前学習と比較する。
- 事前学習済みモデルを検出と分割のためにPascal-Vocで微調整し、分類にはCaltech-256, Sun-397, Oxford-102 Flowersで微調整する。
- SNIPER eraの検出器とデータ拡張を用いた標準的なファインチューニングスケジュールを使用。
- 複数のIoU閾値(0.1〜0.7)で局所化性能を分析し、トリマップ実験を用いて境界領域と非境界領域の挙動を定量化する。
- 活性化を可視化し、特徴空間解析(例:Conv5の類似性、t-SNE、クラスタリング)を実施して検出と分類の表現を比較する。
実験結果
リサーチクエスチョン
- RQ1大規模な検出データセットでの事前学習は、小規模な検出データセットおよび高IoU局所化のファインチューニング性能を向上させるか?
- RQ2検出の事前学習は意味的セグメンテーションと画像分類の性能にどう影響するか?
- RQ3検出事前学習と分類事前学習のネットワーク間で、特徴と活性化の内部的な違いは何か?
- RQ4検出特徴空間の類似性は分類特徴空間の類似性を予測するか?
- RQ5事前学習データセットのサイズと境界ボックスの豊富さが転移ダイナミクスにどう影響するか?
主な発見
| Method / Pre-trained Dataset | mAP@ 0.5 | mAP@ 0.7 |
|---|---|---|
| DCNv1 | 81.9 | 68.2 |
| DCNv2 | 84.9 | 73.5 |
| ImageNet-Cls | 84.6 | 76.3 |
| ImageNet-Loc | 86.5 | 80.0 |
| Coco | 86.8 | 80.7 |
| OpenImages | 86.8 | 81.1 |
- 大規模検出データセットでの事前学習は、ImageNet事前学習と比べて高いIoUでPascal-Vocのオブジェクト検出mAPを最大約7.6%改善できる(例:OpenImagesで0.7 IoU時のmAPが81.1%)。
- 検出事前学習は、分類事前学習と比較してPascal-Voc 2012の意味的セグメンテーションで約3%の利得をもたらす。
- 検出事前学習は、ファインチューニングなしで検出特徴を分類に用いた場合Caltech-256で約8%の分類性能低下を招く。
- 2つの画像が似た検出特徴を持つ場合、分類特徴も似ている可能性が高いが、その逆は必ずしもそうではない。
- 活性化の可視化は、検出ネットワークが全体オブジェクトの表現を用いる一方、分類ネットワークは識別に有効な部分に焦点を当てることを示しており、遮蔽や複数のインスタンスへの頑健性に影響を与える。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。