QUICK REVIEW

[논문 리뷰] Sparse R-CNN: End-to-End Object Detection with Learnable Proposals

Peize Sun, Rufeng Zhang|arXiv (Cornell University)|2020. 11. 25.

Advanced Neural Network Applications참고 문헌 61인용 수 103

한 줄 요약

Sparse R-CNN은 고정된 학습 가능한 제안 세트와 동적 인스턴스 상호 작용 헤드를 사용하여 Dense 후보나 NMS 후처리 없이도 COCO에서 경쟁력 있는 결과를 달성하는 순수 희소 객체 탐지기를 제안합니다.

ABSTRACT

We present Sparse R-CNN, a purely sparse method for object detection in images. Existing works on object detection heavily rely on dense object candidates, such as $k$ anchor boxes pre-defined on all grids of image feature map of size $H imes W$. In our method, however, a fixed sparse set of learned object proposals, total length of $N$, are provided to object recognition head to perform classification and location. By eliminating $HWk$ (up to hundreds of thousands) hand-designed object candidates to $N$ (e.g. 100) learnable proposals, Sparse R-CNN completely avoids all efforts related to object candidates design and many-to-one label assignment. More importantly, final predictions are directly output without non-maximum suppression post-procedure. Sparse R-CNN demonstrates accuracy, run-time and training convergence performance on par with the well-established detector baselines on the challenging COCO dataset, e.g., achieving 45.0 AP in standard $3 imes$ training schedule and running at 22 fps using ResNet-50 FPN model. We hope our work could inspire re-thinking the convention of dense prior in object detectors. The code is available at: https://github.com/PeizeSun/SparseR-CNN.

연구 동기 및 목표

현대 탐지기에서 Dense 객체 후보에 대한 의존성에 의문을 제기합니다.
End-to-end 객체 탐지를 위해 고정된 학습 가능한 제안 상자(boxes) 및 특징 세트를 도입합니다.
NMS의 필요성을 제거하고 예측된 최종 객체 집합으로 직접 끝냄으로써 단순화합니다.
단순하고 희소한 아키텍처로 COCO에서의 정확도와 속도 경쟁력을 입증합니다.

제안 방법

희소 Candidate 생성(HWk 제안) 를 고정된 학습 가능한 N 개의 제안(N 제안 상자) 및 N 제안 특징으로 교체합니다.
RoIAlign을 사용해 각 학습 가능한 제안에 대한 특징을 추출하고 해당 제안 특징으로 조건화된 Dynamic Instance Interactive Head를 적용합니다.
한 단계의 refined box/feature가 다음 단계로 피드되며, 물체 간 관계를 모델링하기 위한 Self-attention을 포함한 반복적 아키텍처를 도입합니다.
예측과 GT 객체 간의 1:1 bipartite 매칭을 수행하는 세트 기반 손실로 학습하여 다대일 할당을 피하고 엔드 투 엔드 학습을 가능하게 합니다.
제안, 반복 및 동적 헤드의 효과를 연구하기 위해 다양한 백본과 ablation과 비교를 선택적으로 수행합니다.

실험 결과

연구 질문

RQ1Dense priors나 NMS 없이 순수 희소 학습 가능한 제안 세트로 객체 탐지가 효과적으로 수행될 수 있는가?
RQ2학습 가능한 제안 상자 및 제안 특징이 객체 및 스케일 전반의 탐지 정확도에 어떤 영향을 미치는가?
RQ3반복적 정제 및 동적 헤드가 수렴 속도 및 최종 성능에 전통적 Dense 탐지기 및 DETR 계열 방법과 비교해 어떤 영향을 주는가?
RQ4COCO에서 백본 선택 및 학습 설정에 대해 접근 방식이 얼마나 견고한가?

주요 결과

방법	백본/설정	에폭	AP	AP 50	AP 75	AP s	AP m	AP l	FPS
RetinaNet-R50	FPN, 36 에폭	36	38.7	58.0	41.5	23.3	42.3	50.3	24
RetinaNet-R101	FPN, 36 에폭	36	40.4	60.2	43.2	24.0	44.3	52.2	18
Faster R-CNN-R50	FPN, 36 에폭	36	40.2	61.0	43.8	24.2	43.5	52.0	26
Faster R-CNN-R101	FPN, 36 에폭	36	42.0	62.5	45.9	25.2	45.6	54.6	20
Cascade R-CNN-R50	FPN, 36 에폭	36	44.3	62.2	48.0	26.6	47.7	57.7	19
DETR-R50	Encoder, 500 에폭	500	42.0	62.4	44.2	20.5	45.8	61.1	28
DETR-R101	Encoder, 500 에폭	500	43.5	63.8	46.4	21.9	48.0	61.8	20
DETR-DC5-R50	Encoder, 500 에폭	500	43.3	63.1	45.9	22.5	47.3	61.1	12
DETR-DC5-R101	Encoder, 500 에폭	500	44.9	64.7	47.7	23.7	49.5	62.3	10
Deformable DETR-R50	DeformEncoder, 50 에폭	50	43.8	62.6	47.7	26.4	47.1	58.0	19
Sparse R-CNN-R50	FPN, 36 에폭	36	42.8	61.2	45.7	26.7	44.6	57.6	23
Sparse R-CNN-R101	FPN, 36 에폭	36	44.1	62.1	47.2	26.1	46.3	59.7	19
Sparse R-CNN*-R50	FPN, 36 에폭	36	45.0	63.4	48.2	26.9	47.2	59.5	22
Sparse R-CNN*-R101	FPN, 36 에폭	36	46.4	64.6	49.5	28.3	48.3	61.6	18

Sparse R-CNN은 Dense 후보 생성 및 NMS 없이도 ResNet-50 FPN에서 300 제안 및 36 에폭 학습으로 COCO AP가 경쟁력 있는 값인 45.0 AP를 달성합니다.
100 제안으로도 42.8 AP를 달성하고, 300 제안 및 데이터 증강으로 45.0 AP에 도달하며, 101-card 제안에서는 46.4 AP가 보고됩니다.
제안 특징으로 조건화된 동적 인스턴스 인터랙티브 헤드는 정적 헤드 및 대안적 주의 메커니즘에 비해 정확도를 크게 높입니다.
DETR보다 빠른 학습 수렴을 보이고 추론 속도도 경쟁적이며(예: ResNet-50-FPN에서 100-300 제안 시 22 FPS), 실제 운용 가능성이 높습니다.
세트 기반의 1:1 매칭 손실( bipartite )은 전통적 다대일 할당을 대체하고 NMS 없이 엔드투엔드 학습을 가능하게 합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.