[논문 리뷰] RTMDet: An Empirical Study of Designing Real-Time Object Detectors
RTMDet는 대형 커널 깊이별 블록과 소프트 레이블 동적 할당을 사용한 실시간 원샷(detector)을 제공하여 COCO에서 300+ FPS로 52.8% AP를 달성하고, 최소한의 수정으로 인스턴스 분할 및 회전 물체 탐지도 지원합니다.
In this paper, we aim to design an efficient real-time object detector that exceeds the YOLO series and is easily extensible for many object recognition tasks such as instance segmentation and rotated object detection. To obtain a more efficient model architecture, we explore an architecture that has compatible capacities in the backbone and neck, constructed by a basic building block that consists of large-kernel depth-wise convolutions. We further introduce soft labels when calculating matching costs in the dynamic label assignment to improve accuracy. Together with better training techniques, the resulting object detector, named RTMDet, achieves 52.8% AP on COCO with 300+ FPS on an NVIDIA 3090 GPU, outperforming the current mainstream industrial detectors. RTMDet achieves the best parameter-accuracy trade-off with tiny/small/medium/large/extra-large model sizes for various application scenarios, and obtains new state-of-the-art performance on real-time instance segmentation and rotated object detection. We hope the experimental results can provide new insights into designing versatile real-time object detectors for many object recognition tasks. Code and models are released at https://github.com/open-mmlab/mmdetection/tree/3.x/configs/rtmdet.
연구 동기 및 목표
- 실시간 탐지 정확도와 속도를 최대화하는 아키텍처를 조사하여 YOLO 계열 벤치마크를 뛰어넘는 모델을 달성한다.
- 전역 문맥 정보를 개선하기 위한 대형 커널 깊이별 합성(convolution)으로 백본/목(neck) 설계를 탐구한다.
- 소프트 레이블 동적 할당 및 개선된 데이터 증강을 통해 훈련 안정성과 정확도를 향상시킨다.
- 아키텍처를 최소한으로 변경하여 인스턴스 분할 및 회전 물체 탐지로의 확장성을 보여준다.
제안 방법
- 수용필드를 확장하기 위해 5x5 깊이별 합성으로 구성된 빌딩 블록으로 백본/목을 구성한다.
- 용량과 속도를 유지하기 위해 더 얕은 깊이의 블록으로 모델 깊이를 감소시키고 더 넓은 블록으로 보완한다.
- 백본의 능력에 맞게 목의 확장 비율을 증가시켜 백본과 목 간 균형을 맞춘다.
- 파라미터를 줄이기 위해 규모별 BN 계층을 공유하여 검출 헤드를 스케일 간 공유한다.
- 비용 함수 C = λ1C_cls + λ2C_reg + λ3C_center를 사용하는 동적 소프트 레이블 할당(SimOTA 기반)과 C_cls에서 소프트 레이블 사용.
- 회귀 비용을 -log(IoU)로 대체하고 구분 가능한 매칭을 위해 log(IoU)를 사용하며 소프트 중심 영역 비용을 적용한다.
- Cached Mosaic와 MixUp을 사용하여 학습 속도를 높이고, 강한 증강에서 약한 증강으로 이어지는 2단계 훈련 스케줄을 채택하며 AdamW 옵티마이저를 사용한다.
- kernel/마스크 헤드(RTMDet-Ins)로 인스턴스 분할로 확장하고 각도 브랜치와 회전 박스 디코딩(RTMDet-R)을 추가하여 회전 물체 탐지로 확장한다.
실험 결과
연구 질문
- RQ1백본/목의 대형 커널 깊이별 블록이 속도를 해치지 않으면서 실시간 탐지 성능을 어떻게 개선할 수 있는가?
- RQ2소프트 레이블 동적 할당이 실시간 탐지에서 매칭 품질과 전체 정확도를 향상시키는가?
- RQ3실시간 탐지기의 정확도를 극대화하는 학습 전략(증강, 옵티마이저, 스케줄)은 무엇인가?
- RQ4RTMDet가 최소한의 아키텍처 변경으로 인스턴스 분할 및 회전 물체 탐지에서 경쟁력 있는 성능을 낼 수 있는가?
주요 결과
- RTMDet는 NVIDIA 3090에서 COCO 기준 52.8% AP를 300+ FPS로 달성하여 현존하는 주류 산업용 탐지기보다 높은 성능을 보인다.
- RTMDet-tiny는 1020 FPS에서 41.1% AP를, 4.8M 파라미터로 달성; RTMDet-s는 819 FPS에서 44.6% AP이다.
- RTMDet-m 및 RTMDet-l은 모델 크기가 확장될수록 49.4% 이상 AP를 달성하며 파라미터/정확도 절충을 균형 있게 달성한다.
- RTMDet-Ins-x는 COCO val2017에서 44.6% 마스크 AP를 실시간으로 달성하고, RTMDet-R-tiny/RTMDet-R-m/RTMDet-R-l은 DOTA v1.0에서 강력한 회전 물체 탐지를 달성하며, RTMDet-R-l의 COCO-사전학습 버전은 DOTA-v1.0에서 81.33% mAP를 달성한다.
- 확장성: 인스턴스 분할은 약 10%의 파라미터 증가를 수반하고, 회전 탐지는 박스 회귀 조정 및 Rotated IoU 손실이 최소화된 변경으로 가능하다.
- 소프트 레이블 동적 할당은 매칭 구분력과 훈련 안정성을 개선하여 하드 레이블 할당에 비해 정확도가 향상된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.