[논문 리뷰] H2RBox: Horizontal Box Annotation is All You Need for Oriented Object Detection
H2RBox는 수평 박스 주석과 약자- 및 자기지도 학습을 사용하여 방향 바운딩 박스를 예측하며, HBox-감독 방법보다 낮은 메모리 및 더 높은 속도와 경쟁적인 성능을 달성하고 RBox-감독 탐지기들에 근접합니다.
Oriented object detection emerges in many applications from aerial images to autonomous driving, while many existing detection benchmarks are annotated with horizontal bounding box only which is also less costive than fine-grained rotated box, leading to a gap between the readily available training corpus and the rising demand for oriented object detection. This paper proposes a simple yet effective oriented object detection approach called H2RBox merely using horizontal box annotation for weakly-supervised training, which closes the above gap and shows competitive performance even against those trained with rotated boxes. The cores of our method are weakly- and self-supervised learning, which predicts the angle of the object by learning the consistency of two different views. To our best knowledge, H2RBox is the first horizontal box annotation-based oriented object detector. Compared to an alternative i.e. horizontal box-supervised instance segmentation with our post adaption to oriented object detection, our approach is not susceptible to the prediction quality of mask and can perform more robustly in complex scenes containing a large number of dense objects and outliers. Experimental results show that H2RBox has significant performance and speed advantages over horizontal box-supervised instance segmentation methods, as well as lower memory requirements. While compared to rotated box-supervised oriented object detectors, our method shows very close performance and speed. The source code is available at PyTorch-based \href{https://github.com/yangxue0827/h2rbox-mmrotate}{MMRotate} and Jittor-based \href{https://github.com/yangxue0827/h2rbox-jittor}{JDet}.
연구 동기 및 목표
- 가용 가능한 수평 박스 주석과 방향 객체 검출 수요 사이의 격차를 해소한다.
- RBox 라벨 없이 객체 각도를 학습하는 두 가지 분기 H2RBox 프레임워크를 제안한다.
- H2RBox가 HBox-감독 인스턴스 세분화 baselines를 능가하고 정확도와 효율성 면에서 RBox-감독 탐지기에 근접할 수 있음을 보인다.
제안 방법
- GT HBox를 수평으로 둘러싼 직사각형을 통한 감독으로 약-감독(WS) FCOS 기반 회전 탐지기의 두 분기 아키텍처.
- 입력 뷰를 회전시키고 뷰 간 RBox 예측 일관성을 강제하는 자기-감독(SS) 분기.
- ground-truth 각도 누출을 피하기 위한 패딩/자르기 전략(제로 패딩, 중앙 자르기, 반사 패딩).
- SS 분기 대상과 WS 예측을 맞추기 위한 라벨 재할당 전략(일대일, 다대일).
- 결합 손실 L_total = L_ws + lambda L_ss로 분류, 중심성, 회귀, 각도/스케일 일관성에 대한 자세한 항목 포함.
실험 결과
연구 질문
- RQ1수평 박스 주석이 RBox 라벨 없이 방향 객체 검출기의 효과적인 학습을 가능하게 할 수 있는가?
- RQ2약- 및 자기-감독 학습을 결합하여 HBox 데이터로부터 정확한 회전 예측을 회복하는 방법은 무엇인가?
- RQ3뷰 생성 전략과 라벨 재할당이 방향 정확도 및 전체 검출 성능에 미치는 영향은 무엇인가?
- RQ4H2RBox가 정확도, 메모리, 속도 측면에서 HBox-감독 인스턴스 세분화 baselines 및 RBox-감독 탐지기와 어떻게 비교되는가?
주요 결과
- DOTA-v1.0에서 H2RBox는 BoxInst-RBox 및 BoxLevelSet-RBox보다 AP50에서 각각 14.31%와 11.46% 높은 성능을 보이며 (67.90% 대 53.59% 및 56.44%).
- H2RBox와 함께 메모리 사용은 6.25 GB, 추론 속도는 31.6 FPS로 BoxInst-RBox의 약 1/3 메모리 및 12배 빠름, BoxLevelSet-RBox보다 현저히 빠름.
- 다중 스케일 학습/테스트로 완전한 RBox-감독 FCOS까지의 격차가 DOTA-v1.0에서 0.91%로 감소 (AP 75: 74.40 vs 75.31).
- DIOR-R에서 H2RBox는 AP 33.15, AP50 57.00, AP75 32.60으로 RBox-감독 FCOS(AP 34.16, AP50 58.60, AP75 31.90)에 근접.
- 가설검증에서 자기-지도 손실(L_ss)이 필수적이며, 이를 사용하면 DOTA-v1.0에서 AP가 낮은 값에서 35.92%로, DIOR-R에서 33.15%로 크게 향상됨.
- HBX-Mask-RBox 기반 베이스라인(BoxInst-RBox, BoxLevelSet-RBox)은 테스트 데이터셋에서 H2RBox에 의해 정확도와 효율성 면에서 능가당했다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.