[논문 리뷰] MDSSD: Multi-scale Deconvolutional Single Shot Detector for Small Objects
MDSSD는 고수준 특징을 업샘플링하고 얕은 레이어와 융합하는 다중 스케일 디컨볼루션 블록을 도입하여 작은 물체 탐지를 강화하고 TT100K, VOC2007, COCO에서 최첨단 결과를 달성합니다.
For most of the object detectors based on multi-scale feature maps, the shallow layers are rich in fine spatial information and thus mainly responsible for small object detection. The performance of small object detection, however, is still less than satisfactory because of the deficiency of semantic information on shallow feature maps. In this paper, we design a Multi-scale Deconvolutional Single Shot Detector (MDSSD), especially for small object detection. In MDSSD, multiple high-level feature maps at different scales are upsampled simultaneously to increase the spatial resolution. Afterwards, we implement the skip connections with low-level feature maps via Fusion Block. The fusion feature maps, named Fusion Module, are of strong feature representational power of small instances. It is noteworthy that these high-level feature maps utilized in Fusion Block preserve both strong semantic information and some fine details of small instances, rather than the top-most layer where the representation of fine details for small objects are potentially wiped out. The proposed framework achieves 77.6% mAP for small object detection on the challenging dataset TT100K with 512 x 512 input, outperforming other detectors with a large margin. Moreover, it can also achieve state-of-the-art results for general object detection on PASCAL VOC2007 test and MS COCO test-dev2015, especially achieving 2 to 5 points improvement on small object categories.
연구 동기 및 목표
- 작은 물체 탐지의 도전 과제와 기존 다중 스케일 탐지기의 한계를 제시한다.
- 공간적 세부 정보를 보존하면서 의미론적 풍부함을 활용하기 위한 다중 스케일 디컨볼루션 프레임워크를 개발한다.
- 작은 물체 탐지를 위한 고수준 특징과 저수준 특징을 융합하는 Fusion Blocks를 도입한다.
- MDSSD를 TT100K, PASCAL VOC2007, MS COCO에서 평가하여 SSD 및 관련 방법들에 비해 향상을 입증한다.
제안 방법
- 다른 스케일의 고수준 특징 맵에 디컨볼루션 레이어를 적용하여 공간 해상도를 업샘플링한다.
- 업샘플링된 고수준 특징을 해당 얕은 특징과 스킵 연결을 통해 융합하는 Fusion Blocks를 도입한다.
- 가장 깊은 SSD 레이어(conv11_2)들보다 작 물체 세부 정보를 회복하기 위해 작동하는 세 개의 Fusion Modules(Module 1, Module 2, Module 3)을 만든다.
- 새로운 Fusion Modules와 원래 SSD 레이어 모두에서 병렬로 예측을 수행한다.
- 로컬라이제이션(Smooth L1)과 컨피던스(Softmax) 손실의 가중합으로 구성된 손실 함수로 학습한다.
실험 결과
연구 질문
- RQ1특징 해상도가 SSD 유사 아키텍처에서 작은 물체 탐지에 어떤 영향을 미치는가?
- RQ2다중 스케일 디컨볼루션 업샘플링과 특징 융합이 대형 물체 성능을 희생하지 않으면서 작은 물체 탐지를 개선할 수 있는가?
- RQ3Fusion Modules 추가가 데이터셋(TT100K, VOC2007, COCO) 간 탐지 정확도에 미치는 영향은 무엇인가?
주요 결과
- MDSSD512는 TT100K에서 77.6%의 mAP를 달성하여 SSD512(68.7%) 및 RFB Net(74.4%)를 능가한다.
- MDSSD512는 입력 크기 512×512임에도 TT100K에서 Faster R-CNN 변형들(52.9% 및 61.1%)을 능가한다.
- PASCAL VOC2007에서 MDSSD300은 78.6% mAP를 달성하여 DSSD321에 버금가고, ResNet-101 백본으로는 81.0%(MDSSD512*)에 도달한다.
- COCO에서 MDSSD300 및 MDSSD512은 작은 물체(area < 32^2)에 대해 각각 10.8% AP와 13.9% AP를 달성하여 SSD, DSSD 및 DSOD baseline보다 높다.
- MDSSD는 또한 작은 물체에 대해 더 높은 평균 재현율(AR)을 보고하여 작은 물체 탐지 능력이 향상되었음을 나타낸다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.