[논문 리뷰] FSSD: Feature Fusion Single Shot Multibox Detector
FSSD는 경량의 특징 융합 모듈을 도입하여 다층 특징을 연결해 새로운 특징 피라미드를 구성함으로써 탐지 정확도를 개선합니다(특히 작은 물체에서) 약간의 속도 저하와 함께.
SSD (Single Shot Multibox Detector) is one of the best object detection algorithms with both high accuracy and fast speed. However, SSD's feature pyramid detection method makes it hard to fuse the features from different scales. In this paper, we proposed FSSD (Feature Fusion Single Shot Multibox Detector), an enhanced SSD with a novel and lightweight feature fusion module which can improve the performance significantly over SSD with just a little speed drop. In the feature fusion module, features from different layers with different scales are concatenated together, followed by some down-sampling blocks to generate new feature pyramid, which will be fed to multibox detectors to predict the final detection results. On the Pascal VOC 2007 test, our network can achieve 82.7 mAP (mean average precision) at the speed of 65.8 FPS (frame per second) with the input size 300$ imes$300 using a single Nvidia 1080Ti GPU. In addition, our result on COCO is also better than the conventional SSD with a large margin. Our FSSD outperforms a lot of state-of-the-art object detection algorithms in both aspects of accuracy and speed. Code is available at https://github.com/lzx1413/CAFFE_SSD/tree/fssd.
연구 동기 및 목표
- SSD 기반 탐지기에서 다중 스케일 물체 탐지의 문제를 해결한다.
- 다른 계층의 특징을 연결하고 다운샘플링하기 위한 경량의 특징 융합 모듈을 제안한다.
- 융합된 특징으로 새로운 특징 피라미드를 구성하고 이를 multibox 탐지기에 공급한다.
- 정확도와 속도 향상을 정량화하기 위해 PASCAL VOC 및 MS COCO에서 FSSD를 평가한다.
제안 방법
- 선정된 계층의 투영된 특징을(1x1 컨볼루션을 통해) 공통 공간 크기로 재조정한 후 연결하는 특징 융합 프레임워크를 정의한다.
- SSD300 백본에 대해 conv3 3, conv4 3, fc7, 및 conv7 2의 특징을 연결(concatenation)하여 융합하며, conv3 3은 선택적으로 제외할 수 있다(요소별 합이 아닌 연결 사용).
- 융합 후 특징 스케일을 정규화하기 위해 배치 정규화를 적용한다.
- 융합된 특징 맵에 하향 샘플링 블록(stride-2 합성곱)을 적용하여 피라미드 특징 추출기를 구성한다.
- SSD 스타일 손실과 하드 네거티브 마이닝을 사용하여 VGG16/SSD 사전 학습 또는 COCO 사전 학습 모델에서 파인튜닝하여 FSSD를 학습한다.
실험 결과
연구 질문
- RQ1단일의 경량 특징 융합 모듈이 다중 스케일 특징을 활용하여 SSD를 개선할 수 있는가?
- RQ2다중 스케일 특징 통합에서 연결(concatenation) 기반 융합이 합(sum) 기반 융합보다 성능이 우수한가?
- RQ3VOC와 COCO 데이터셋에서 융합 특징 설계가 정확도와 속도에 미치는 영향은 무엇인가?
주요 결과
- FSSD는 1080Ti 단일 시스템에서 COCO 사전 학습 모델을 사용하여 300x300 입력 시 VOC2007 테스트에서 82.7 mAP를 달성하며 65.8 FPS를 기록한다.
- VOC2012에서 COCO 사전 학습을 사용한 FSSD300은 82.0% mAP를, FSSD512는 84.2% mAP를 달성하여 SSD 기본선보다 우수하다.
- COCO test-dev 결과에서 FSSD300은 27.1% AP를 달성했고 SSD300* (25.1%)보다 높으며, FSSD512는 31.8% AP를 달성한다.
- 절단 연구는 concatenation이 요소별 합보다 우수하고, 융합 후 Batch Normalization이 mAP를 약 0.7% 포인트 향상시킨다.
- 제안된 융합 피라미드 설계는 소형 물체 탐지에서 주목할 만한 이점을 제공하고 표준 SSD에 비해 다중 파트 탐지를 감소시킨다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.