QUICK REVIEW

[논문 리뷰] Strip R-CNN: Large Strip Convolution for Remote Sensing Object Detection

Xinbin Yuan, Zhaohui Zheng|arXiv (Cornell University)|2025. 01. 07.

Infrared Target Detection Methodologies인용 수 5

한 줄 요약

Strip R-CNN은 백본에서 연속적이고 직교적인 대형 스트립 컨볼루션을 도입하고 스트립-강화 로컬라이제이션 헤드를 통해 원격 탐지에서 길이가 긴 객체(높은 가로세로 비율)의 탐지 성능을 향상시키며, DOTA 및 기타 벤치마크에서 최첨단 결과를 달성한다.

ABSTRACT

While witnessed with rapid development, remote sensing object detection remains challenging for detecting high aspect ratio objects. This paper shows that large strip convolutions are good feature representation learners for remote sensing object detection and can detect objects of various aspect ratios well. Based on large strip convolutions, we build a new network architecture called Strip R-CNN, which is simple, efficient, and powerful. Unlike recent remote sensing object detectors that leverage large-kernel convolutions with square shapes, our Strip R-CNN takes advantage of sequential orthogonal large strip convolutions in our backbone network StripNet to capture spatial information. In addition, we improve the localization capability of remote-sensing object detectors by decoupling the detection heads and equipping the localization branch with strip convolutions in our strip head. Extensive experiments on several benchmarks, for example DOTA, FAIR1M, HRSC2016, and DIOR, show that our Strip R-CNN can greatly improve previous work. In particular, our 30M model achieves 82.75% mAP on DOTA-v1.0, setting a new state-of-the-art record. Our code will be made publicly available.Code is available at https://github.com/YXB-NKU/Strip-R-CNN.

연구 동기 및 목표

원격 센싱 영상에서 고가로/길쭉한 형태의 객체 탐지 향상 동기 부여
직교적 대형 스트립 컨볼루션을 핵심 공간 필터로 활용하는 간단하고 효율적인 아키텍처 제안
로컬라이제이션을 분류로부터 분리하고 스트립 컨볼루션으로 로컬라이제이션 헤드를 강화하여 각도 회귀 성능 향상
DOTA, FAIR1M, HRSC2016, DIOR를 포함한 다수의 원격 탐지 벤치마크에서 강력한 성능 시연

제안 방법

StripNet 백본과 스트립 기반 탐지 헤드를 갖춘 Strip R-CNN 아키텍처 도입
기본 블록에서 수평 및 수직의 대형 스트립 컨볼루션을 순차적으로 결합하고 깊이별 제곱 컨볼루션을 결합한 스트립 모듈 구현
분류와 달리 로컬라이제이션(및 각도) 예측을 분리하고 로컬라이제이션 헤드에 스트립 모듈을 적용하여 장거리 의존성 포착
분류 및 각도 헤드를 위한 공유 이층 완전 연결 설계와 로컬라이제이션 헤드를 스트립 컨볼루션으로 보강
Lc, Ll, La 손실(분류 교차 엔트로피, 스무스 L1 로컬라이제이션, 스무스 L1 각도)을 사용하여 엔드투엔드 학습
단일/다중 스케일 설정에서 DOTA-v1.0/v1.5, FAIR1M-v1.0, HRSC2016, DIOR-R에 대해 평가

실험 결과

연구 질문

RQ1원격 센싱 이미지에서 다양한 가로세로 비율의 객체에 대해 대형 스트립 컨볼루션이 특징 표현에 미치는 영향은 무엇인가?
RQ2스트립 강화 로컬라이제이션으로 로컬라이제이션(각도)을 분리하면 포즈 및 각도 회귀 정확도가 향상되는가?
RQ3Strip R-CNN 변형이 대형 커널 또는 회전 객체 검출기 대비 주요 원격 탐지 벤치마크에서 최첨단 결과를 달성하는가?

주요 결과

모델	#파라미터	FLOPs	FPS	mAP (%)
ResNet-50	23.3M	86.1G	21.8	75.87
LSKNet-S	14.4M	54.4G	20.7	77.49
PKINet-S	13.7M	70.2G	12.0	78.39
StripNet-S	13.3M	52.3G	17.7	80.06

StripNet-S와 Strip R-CNN은 단일 스케일 평가에서 DOTA-v1.0에서 mAP 80.06%를 달성하며, 여러 백본보다 높습니다.
Strip R-CNN-S는 앙상블로 DOTA-v1.0에서 mAP 82.75%를 달성하여 새로운 최첨단을 설정합니다.
DOTA-v1.5에서 Strip R-CNN-S는 단일 스케일 평가에서 72.27%의 mAP를 달성하여 기존 방법보다 우수합니다.
FAIR1M-v1.0에서 Strip R-CNN-S는 48.26%의 mAP로 강력한 베이스라인과 경쟁합니다.
HRSC2016 및 DIOR-R에서 Strip R-CNN-S는 최첨단 또는 경쟁력 있는 점수를 달성합니다(예: HRSC2016 VOC12 메트릭 98.70%; DIOR-R 68.70%).
일련의 차수 연구에서 19x19가 모든 단계에서 최적의 스트립 커널 크기로 확인되었고, 수평 및 수직 스트립 컨볼루션을 순차적으로 결합하는 필요성을 확인했습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.