[논문 리뷰] DetNet: A Backbone network for Object Detection
DetNet은 객체 탐지를 위해 특별히 설계된 백본을 도입하여 dilated bottleneck blocks로 더 깊은 계층에서도 높은 공간 해상도를 유지하고, 비교 대상보다 더 낮은 FLOPs로 COCO에서 최첨단 성능을 달성합니다.
Recent CNN based object detectors, no matter one-stage methods like YOLO, SSD, and RetinaNe or two-stage detectors like Faster R-CNN, R-FCN and FPN are usually trying to directly finetune from ImageNet pre-trained models designed for image classification. There has been little work discussing on the backbone feature extractor specifically designed for the object detection. More importantly, there are several differences between the tasks of image classification and object detection. 1. Recent object detectors like FPN and RetinaNet usually involve extra stages against the task of image classification to handle the objects with various scales. 2. Object detection not only needs to recognize the category of the object instances but also spatially locate the position. Large downsampling factor brings large valid receptive field, which is good for image classification but compromises the object location ability. Due to the gap between the image classification and object detection, we propose DetNet in this paper, which is a novel backbone network specifically designed for object detection. Moreover, DetNet includes the extra stages against traditional backbone network for image classification, while maintains high spatial resolution in deeper layers. Without any bells and whistles, state-of-the-art results have been obtained for both object detection and instance segmentation on the MSCOCO benchmark based on our DetNet~(4.8G FLOPs) backbone. The code will be released for the reproduction.
연구 동기 및 목표
- detection 태스크를 위한 ImageNet 분류 백본의 한계를 식별합니다.
- 공간 해상도를 희생하지 않으면서 수용 영역을 유지하는 백본을 설계합니다.
- DetNet의 효과를 FPN과 같은 탐지 헤드와 함께 COCO 객체 탐지 및 인스턴스 분할에 대해 입증합니다.
제안 방법
- 백본에 추가 단계를 도입(예: P6) 하되 4단계 이후 16x 다운샘플링을 유지하기 위해 다운샘플링을 고정합니다.
- 1x1 매핑으로 새로운 단계를 만들기 위해 배열화된 병목 블록을 사용하여 공간 해상도 비용을 증가시키지 않습니다.
- 사전 학습이 ImageNet과의 호환성을 유지하도록 탐지기와 동일한 단계 수를 유지합니다(예: FPN).
- COCO에서 ResNet 백본과 대조군으로 DetNet-59(ResNet-50 기반)를 FPN 프레임워크 내에서 벤치마킹합니다.
- 백본 효과를 분리하기 위해 ImageNet 사전 학습에서 학습된 모델과 처음부터 학습된 모델 간의 차이를 비교합니다.
실험 결과
연구 질문
- RQ1고해상도 깊은 특징을 보존하는 탐지 최적화 백본이 COCO의 로컬라이제이션 정확도와 소형/대형 객체 탐지에 도움이 됩니까?
- RQ2DetNet-59가 낮거나 비슷한 FLOPs로 ResNet-50/FPN 대비 더 나은 탐지 및 인스턴스 분할 결과를 달성할 수 있습니까?
주요 결과
- DetNet-59는 FPN과 함께 사용할 때 ResNet-50보다 더 높은 mAP 및 AP 메트릭을 달성합니다(예: ablations에서 mAP가 37.9에서 40.2로 향상).
- DetNet-59와 FPN은 FLOPs이 더 적은 편임에도 COCO 탐지에서 ResNet-101 기반 백본을 능가합니다(4.8G 대 7.6G).
- DetNet-59를 처음부터 학습(이미지넷 가중치 없이)한 경우에도 COCO FPN 결과에서 ResNet-50을 처음부터 학습한 것보다 우수합니다(36.3 대 34.5 mAP).
- DetNet-59는 큰 물체(APl)에서 현저한 이득과 IoU=85에서 더 높은 AR을 보여 로컬라이제이션이 개선되었음을 시사합니다.
- DetNet-59 기반 Mask R-CNN은 COCO test-dev에서 여러 ResNet-101 기반 대안을 제치고 최첨단 인스턴스 분할 결과를 달성합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.