[논문 리뷰] Sparse R-CNN: End-to-End Object Detection with Learnable Proposals
Sparse R-CNN은 고정된 학습 가능한 제안 세트와 동적 인스턴스 상호 작용 헤드를 사용하여 Dense 후보나 NMS 후처리 없이도 COCO에서 경쟁력 있는 결과를 달성하는 순수 희소 객체 탐지기를 제안합니다.
We present Sparse R-CNN, a purely sparse method for object detection in images. Existing works on object detection heavily rely on dense object candidates, such as $k$ anchor boxes pre-defined on all grids of image feature map of size $H imes W$. In our method, however, a fixed sparse set of learned object proposals, total length of $N$, are provided to object recognition head to perform classification and location. By eliminating $HWk$ (up to hundreds of thousands) hand-designed object candidates to $N$ (e.g. 100) learnable proposals, Sparse R-CNN completely avoids all efforts related to object candidates design and many-to-one label assignment. More importantly, final predictions are directly output without non-maximum suppression post-procedure. Sparse R-CNN demonstrates accuracy, run-time and training convergence performance on par with the well-established detector baselines on the challenging COCO dataset, e.g., achieving 45.0 AP in standard $3 imes$ training schedule and running at 22 fps using ResNet-50 FPN model. We hope our work could inspire re-thinking the convention of dense prior in object detectors. The code is available at: https://github.com/PeizeSun/SparseR-CNN.
연구 동기 및 목표
- 현대 탐지기에서 Dense 객체 후보에 대한 의존성에 의문을 제기합니다.
- End-to-end 객체 탐지를 위해 고정된 학습 가능한 제안 상자(boxes) 및 특징 세트를 도입합니다.
- NMS의 필요성을 제거하고 예측된 최종 객체 집합으로 직접 끝냄으로써 단순화합니다.
- 단순하고 희소한 아키텍처로 COCO에서의 정확도와 속도 경쟁력을 입증합니다.
제안 방법
- 희소 Candidate 생성(HWk 제안) 를 고정된 학습 가능한 N 개의 제안(N 제안 상자) 및 N 제안 특징으로 교체합니다.
- RoIAlign을 사용해 각 학습 가능한 제안에 대한 특징을 추출하고 해당 제안 특징으로 조건화된 Dynamic Instance Interactive Head를 적용합니다.
- 한 단계의 refined box/feature가 다음 단계로 피드되며, 물체 간 관계를 모델링하기 위한 Self-attention을 포함한 반복적 아키텍처를 도입합니다.
- 예측과 GT 객체 간의 1:1 bipartite 매칭을 수행하는 세트 기반 손실로 학습하여 다대일 할당을 피하고 엔드 투 엔드 학습을 가능하게 합니다.
- 제안, 반복 및 동적 헤드의 효과를 연구하기 위해 다양한 백본과 ablation과 비교를 선택적으로 수행합니다.
실험 결과
연구 질문
- RQ1Dense priors나 NMS 없이 순수 희소 학습 가능한 제안 세트로 객체 탐지가 효과적으로 수행될 수 있는가?
- RQ2학습 가능한 제안 상자 및 제안 특징이 객체 및 스케일 전반의 탐지 정확도에 어떤 영향을 미치는가?
- RQ3반복적 정제 및 동적 헤드가 수렴 속도 및 최종 성능에 전통적 Dense 탐지기 및 DETR 계열 방법과 비교해 어떤 영향을 주는가?
- RQ4COCO에서 백본 선택 및 학습 설정에 대해 접근 방식이 얼마나 견고한가?
주요 결과
| 방법 | 백본/설정 | 에폭 | AP | AP 50 | AP 75 | AP s | AP m | AP l | FPS |
|---|---|---|---|---|---|---|---|---|---|
| RetinaNet-R50 | FPN, 36 에폭 | 36 | 38.7 | 58.0 | 41.5 | 23.3 | 42.3 | 50.3 | 24 |
| RetinaNet-R101 | FPN, 36 에폭 | 36 | 40.4 | 60.2 | 43.2 | 24.0 | 44.3 | 52.2 | 18 |
| Faster R-CNN-R50 | FPN, 36 에폭 | 36 | 40.2 | 61.0 | 43.8 | 24.2 | 43.5 | 52.0 | 26 |
| Faster R-CNN-R101 | FPN, 36 에폭 | 36 | 42.0 | 62.5 | 45.9 | 25.2 | 45.6 | 54.6 | 20 |
| Cascade R-CNN-R50 | FPN, 36 에폭 | 36 | 44.3 | 62.2 | 48.0 | 26.6 | 47.7 | 57.7 | 19 |
| DETR-R50 | Encoder, 500 에폭 | 500 | 42.0 | 62.4 | 44.2 | 20.5 | 45.8 | 61.1 | 28 |
| DETR-R101 | Encoder, 500 에폭 | 500 | 43.5 | 63.8 | 46.4 | 21.9 | 48.0 | 61.8 | 20 |
| DETR-DC5-R50 | Encoder, 500 에폭 | 500 | 43.3 | 63.1 | 45.9 | 22.5 | 47.3 | 61.1 | 12 |
| DETR-DC5-R101 | Encoder, 500 에폭 | 500 | 44.9 | 64.7 | 47.7 | 23.7 | 49.5 | 62.3 | 10 |
| Deformable DETR-R50 | DeformEncoder, 50 에폭 | 50 | 43.8 | 62.6 | 47.7 | 26.4 | 47.1 | 58.0 | 19 |
| Sparse R-CNN-R50 | FPN, 36 에폭 | 36 | 42.8 | 61.2 | 45.7 | 26.7 | 44.6 | 57.6 | 23 |
| Sparse R-CNN-R101 | FPN, 36 에폭 | 36 | 44.1 | 62.1 | 47.2 | 26.1 | 46.3 | 59.7 | 19 |
| Sparse R-CNN*-R50 | FPN, 36 에폭 | 36 | 45.0 | 63.4 | 48.2 | 26.9 | 47.2 | 59.5 | 22 |
| Sparse R-CNN*-R101 | FPN, 36 에폭 | 36 | 46.4 | 64.6 | 49.5 | 28.3 | 48.3 | 61.6 | 18 |
- Sparse R-CNN은 Dense 후보 생성 및 NMS 없이도 ResNet-50 FPN에서 300 제안 및 36 에폭 학습으로 COCO AP가 경쟁력 있는 값인 45.0 AP를 달성합니다.
- 100 제안으로도 42.8 AP를 달성하고, 300 제안 및 데이터 증강으로 45.0 AP에 도달하며, 101-card 제안에서는 46.4 AP가 보고됩니다.
- 제안 특징으로 조건화된 동적 인스턴스 인터랙티브 헤드는 정적 헤드 및 대안적 주의 메커니즘에 비해 정확도를 크게 높입니다.
- DETR보다 빠른 학습 수렴을 보이고 추론 속도도 경쟁적이며(예: ResNet-50-FPN에서 100-300 제안 시 22 FPS), 실제 운용 가능성이 높습니다.
- 세트 기반의 1:1 매칭 손실( bipartite )은 전통적 다대일 할당을 대체하고 NMS 없이 엔드투엔드 학습을 가능하게 합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.