[論文レビュー] DetNet: A Backbone network for Object Detection
DetNetは、拡張ボトルネックブロックを用いて深い層でも高い空間解像度を維持するオブジェクト検出専用のバックボーンを導入し、比較対象よりFLOPsが少ない状態でCOCOの最先端結果を達成します。
Recent CNN based object detectors, no matter one-stage methods like YOLO, SSD, and RetinaNe or two-stage detectors like Faster R-CNN, R-FCN and FPN are usually trying to directly finetune from ImageNet pre-trained models designed for image classification. There has been little work discussing on the backbone feature extractor specifically designed for the object detection. More importantly, there are several differences between the tasks of image classification and object detection. 1. Recent object detectors like FPN and RetinaNet usually involve extra stages against the task of image classification to handle the objects with various scales. 2. Object detection not only needs to recognize the category of the object instances but also spatially locate the position. Large downsampling factor brings large valid receptive field, which is good for image classification but compromises the object location ability. Due to the gap between the image classification and object detection, we propose DetNet in this paper, which is a novel backbone network specifically designed for object detection. Moreover, DetNet includes the extra stages against traditional backbone network for image classification, while maintains high spatial resolution in deeper layers. Without any bells and whistles, state-of-the-art results have been obtained for both object detection and instance segmentation on the MSCOCO benchmark based on our DetNet~(4.8G FLOPs) backbone. The code will be released for the reproduction.
研究の動機と目的
- 検出タスクのためのImageNet分類バックボーンの制限を特定する。
- 受容野を犠牲にせず空間解像度を保持するバックボーンを設計する。
- DetNetをFPNのような検出ヘッドと組み合わせた場合の、COCOの物体検出およびインスタンス分割における有効性を示す。
提案手法
- 第4段階の後で16倍のダウンサンプリングを維持するため、ダウンサンプリングを固定しつつバックボーンに追加ステージ(例: P6)を導入する。
- 空間解像度のコストを増やさずに新しい段を作るため、1x1の射影を備えた拡張ボトルネックブロックを使用する。
- 検出器(例: FPN)と同じ段数を維持して、ImageNetでの事前学習の互換性を保つ。
- FPNフレームワーク内でDetNet-59(ResNet-50をベース)をCOCOでResNetバックボーンと比較してベンチマークする。
- バックボーンの効果を分離するため、ImageNet事前学習から学習したDetNetのバリアントと、ゼロから学習したバリアントを比較する。
実験結果
リサーチクエスチョン
- RQ1高解像度の深い特徴を保持する検出最適化バックボーンは、COCOでの位置精度と小さな/大きな物体検出を改善しますか?
- RQ2DetNet-59は、FLOPsが低いまたは同等で、ResNet-50/FPNのベースラインを上回り、より良い検出とインスタンス分割の結果を実現できますか?
主な発見
- DetNet-59はFPNと組み合わせた場合、ResNet-50より高いmAPおよびAP指標を達成する(例:アブレーションでmAPが37.9から40.2に向上)。
- FPNを搭載したDetNet-59は、FLOPsが少ないにもかかわらずCOCO検出でResNet-101ベースのバックボーンを上回る(4.8G対7.6G)。
- DetNet-59はImageNetウェイトなしでゼロから訓練しても、COCO FPNの結果でResNet-50を上回る(36.3 vs 34.5 mAP)。
- DetNet-59は大きい物体(APl)で顕著な利得とIoU=85でのARの向上を示し、局所化の改善を示唆します。
- DetNet-59ベースのMask R-CNNは、COCO test-devでいくつかのResNet-101ベースラインと比較して最先端のインスタンス分割結果を達成します。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。