[논문 리뷰] Light-Head R-CNN: In Defense of Two-Stage Object Detector
논문은 얇은 특징 맵과 저렴한 R-CNN 서브네트워크를 사용하는 경량 헤드의 이-stage 검출기를 제안하여 높은 속도에서 높은 정확도를 달성하고 COCO에서 다수의 단일- 및 이중-스테이지 검출기를 능가합니다.
In this paper, we first investigate why typical two-stage methods are not as fast as single-stage, fast detectors like YOLO and SSD. We find that Faster R-CNN and R-FCN perform an intensive computation after or before RoI warping. Faster R-CNN involves two fully connected layers for RoI recognition, while R-FCN produces a large score maps. Thus, the speed of these networks is slow due to the heavy-head design in the architecture. Even if we significantly reduce the base model, the computation cost cannot be largely decreased accordingly. We propose a new two-stage detector, Light-Head R-CNN, to address the shortcoming in current two-stage approaches. In our design, we make the head of network as light as possible, by using a thin feature map and a cheap R-CNN subnet (pooling and single fully-connected layer). Our ResNet-101 based light-head R-CNN outperforms state-of-art object detectors on COCO while keeping time efficiency. More importantly, simply replacing the backbone with a tiny network (e.g, Xception), our Light-Head R-CNN gets 30.7 mmAP at 102 FPS on COCO, significantly outperforming the single-stage, fast detectors like YOLO and SSD on both speed and accuracy. Code will be made publicly available.
연구 동기 및 목표
- 전통적인 두 단계(detectors)가 단일 단계(detectors)에 비해 속도가 느린 원인을 제시합니다.
- 두 단계 검출기의 속도를 개선하기 위해 더 가벼운 헤드를 설계합니다(정확도 손실 없이).
- 얇은 특징 맵과 단순한 RoI 서브네트워크가 효율성 및 성능을 높일 수 있음을 보여줍니다.
- COCO에서 작은 백본을 사용하더라도 경쟁력 있는 정확도를 유지하는 유연성을 보여줍니다.
제안 방법
- 큰 커널 분리가능 합성(convolution)으로 얇은 특징 맵을 생성하는 경량 헤드의 두 단계 검출기 아키텍처를 도입합니다.
- RoI 분류 및 회귀를 위한 단일 전결합층(2048 채널)으로 구성된 저가의 R-CNN 서브네트워크를 부착합니다.
- 계산량과 메모리를 줄이기 위해 RoI 풀링 이전의 얇은 특징 맵을 사용하여 효율적인 RoI 워핑을 가능하게 합니다.
- RoI 풀링 전에 얇은 특징 맵을 풍부하게 만들기 위해( k=15, C_mid=256/64, C_out=490 ) 대형 커널 분리합을 사용합니다.
- 얇은 맵에서 RoI 풀링(PSRoI/ROI 풀링)을 적용한 후 경량 R-CNN 서브네트를 사용합니다.
- L(ResNet-101 백본) 설정과 S(작은 Xception 유사 백본) 설정을 실험하여 속도-정확도 트레이드오프를 보여줍니다.
실험 결과
연구 질문
- RQ1두 단계 검출기의 더 가벼운 헤드가 단일 단계 검출기와의 속도 격차를 정확도 손실 없이 좁힐 수 있을까요?
- RQ2얇은 특징 맵과 단순한 RoI 서브네트가 대형에서 미세한 백본에 이르기까지 경쟁력 있는 성능을 제공합니까?
주요 결과
| 모델 | mAP@[0.5:0.95] | AP_s | AP_m | AP_l |
|---|---|---|---|---|
| R-FCN | 32.1 | 12.8 | 34.9 | 46.1 |
| Faster R-CNN (2fc) | 30.3 | 9.9 | 32.2 | 47.4 |
| Deformable | 34.5 | 14.0 | 37.7 | 50.3 |
| G-RMI | 35.6 | - | - | - |
| FPN | 36.2 | 18.2 | 39.0 | 48.2 |
| Mask R-CNN | 38.2 | 20.1 | 41.1 | 50.2 |
| RetinaNet | 37.8 | 20.2 | 41.1 | 49.2 |
| RetinaNet ms-train | 39.1 | 21.8 | 42.7 | 50.2 |
| Light Head R-CNN | 39.5 | 21.8 | 43.0 | 50.7 |
| Light Head R-CNN ms-train | 40.8 | 22.7 | 44.3 | 52.8 |
| Light Head R-CNN | 41.5 | 25.2 | 45.3 | 53.1 |
- ResNet-101 백본을 사용한 경우 Light-Head R-CNN은 대형 커널 특징 맵과 경량 R-CNN 헤드를 결합하면 mmAP가 37.7에 달합니다.
- COCO test-dev(단일 스케일)에서 Light-Head R-CNN은 정제에 따라 39.5–41.5 mmAP를 달성하며 여러 빠른 검출기보다 우수합니다.
- 작은 Xception 유사 백본을 사용하면 Light-Head R-CNN은 102 FPS에서 30.7 mmAP를 달성하며 속도와 정확도 면에서 YOLO/SSD 기본값을 능가합니다.
- RoI 특징 맵 채널을 490(10×7×7)으로 줄이고 2048 채널 FC 헤드를 유지하면 mmAP가 경쟁력 있게 (~31.4–35.2) 유지되며 상당한 속도 향상을 제공합니다.
- 얇은 특징 맵에서 대형 커널(k=15)을 도입하면 기본 얇은 맵 변형에 비해 mmAP가 약 0.7포인트 증가합니다.
- 다중 스케일 학습과 정렬 기반 풀링(PSRoI/ROI Align)을 추가하면 PSAlign과 다중 스케일에서 최대 약 1.3 포인트의 추가 mmAP 이득이 제공합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.