[논문 리뷰] Large Selective Kernel Network for Remote Sensing Object Detection
본 논문은 LSKNet을 제시하며, 일련의 분해된 depthwise 합성곱과 공간 커널 선택 메커니즘을 통해 대규모 수용 영역을 동적으로 확장하고 선택하며, HRSC2016, DOTA-v1.0, FAIR1M-v1.0에서 최첨단 성능을 달성한다.
Recent research on remote sensing object detection has largely focused on improving the representation of oriented bounding boxes but has overlooked the unique prior knowledge presented in remote sensing scenarios. Such prior knowledge can be useful because tiny remote sensing objects may be mistakenly detected without referencing a sufficiently long-range context, and the long-range context required by different types of objects can vary. In this paper, we take these priors into account and propose the Large Selective Kernel Network (LSKNet). LSKNet can dynamically adjust its large spatial receptive field to better model the ranging context of various objects in remote sensing scenarios. To the best of our knowledge, this is the first time that large and selective kernel mechanisms have been explored in the field of remote sensing object detection. Without bells and whistles, LSKNet sets new state-of-the-art scores on standard benchmarks, i.e., HRSC2016 (98.46\% mAP), DOTA-v1.0 (81.85\% mAP) and FAIR1M-v1.0 (47.87\% mAP). Based on a similar technique, we rank 2nd place in 2022 the Greater Bay Area International Algorithm Competition. Code is available at https://github.com/zcablii/Large-Selective-Kernel-Network.
연구 동기 및 목표
- 원격 탐지에서 객체가 정확한 탐지를 위해 다양한 맥락 정보가 필요하다는 사전 지식을 활용한다.
- 대형의 선택적 커널을 사용하여 수용 영역을 동적으로 확장할 수 있는 백본 메커니즘을 개발한다.
- 항공 영상에서 매우 작은 객체나 맥락 의존적 객체의 탐지를 개선하기 위해 다중 스케일 맥락 특징을 효율적으로 융합한다.
- 경량화되고 확장 가능한 백본으로 표준 원격 탐지 벤치마크에서 최첨단 성능을 입증한다.
제안 방법
- 수용 영역을 확장하기 위해 큰 컨볼루션 커널을 일련의 점진적으로 더 큰 커널 크기와 확장을 가지는 depthwise 합성곱으로 분해한다.
- 다중 스케일 특징을 처리하고 분해된 각 커널에 대해 공간 주의 기반 선택 마스크를 적용하는 대형 커널 선택(LK) 모듈을 구성한다.
- 다른 수용 영역의 출력을 연결하고 풀링한 다음, 큰 커널 특징에 가중치를 부여하고 융합하기 위한 공간 주의 맵을 생성한다.
- 최종 LSK 특징은 입력 특징(X)과 학습된 주의 특징(S)의 요소별 곱으로 계산한다( Y = X · S ).
- Oriented RCNN과 같은 검출기 백본 내에 LK Selection block + FFN으로 LSK 모듈을 잔여 블록에 통합한다.
- 다른 채널 차원과 블록 수를 가진 Variants(LSKNet-T, LSKNet-S)를 제공하여 정확도와 효율성의 균형을 맞춘다.
실험 결과
연구 질문
- RQ1대형 커널과 선별적으로 융합된 백본이 서로 다른 객체 규모와 맥락을 가진 데이터셋에서 원격 탐지 객체 탐지를 개선하는가?
- RQ2항공 이미지에서 속도-정확도 트레이드를 극대화하기 위해 대형 수용 영역을 어떻게 분해하고 결합해야 하는가?
- RQ3공간적(대신 채널) 커널 선택이 원격 탐지 데이터에 내재된 공간 맥락 변화을 더 잘 포착하는가?
- RQ4LSKNet이 표준 벤치마크에서 다양한 탐지 프레임워크(2단계 및 1단계)와 통합될 때 어떻게 성능이 나타나는가?
주요 결과
- LSKNet은 HRSC2016에서 최첨단 mAP를 달성한다(98.46%), DOTA-v1.0에서 최첨단 mAP를 달성한다(초록에 81.85%; 결과 표에 81.64%), FAIR1M-v1.0에서 47.87%.
- LSKNet-S는 단일 RTX3090으로 1024×1024 이미지에서 18.1 FPS를 달성하며 높은 정확도를 제공한다.
- 대형 커널의 두 가지 분해는 DOTA-v1.0에서 속도–정확도 트레이드오프를 우호적으로 제공한다(구성에 따라 80.91–81.31 mAP).
- 공간 선택이 원격 탐지 작업에서 채널 주의보다 우수하며, 모델은 얕은 층에서 더 큰 커널을 사용하고 깊은 층에서 더 작은 커널을 사용하는 경향이 있다.
- LSKNet-T/S 백본은 ResNet-18 기반선과 비교하여 매개변수 및 FLOP 수 면에서 경쟁력 있는 수치를 보이며 여러 탐지 프레임워크(두 단계 및 한 단계)를 개선한다.
- 시각적 분석은 서로 다른 객체 카테고리가 다양한 맥락 범위를 필요로 한다는 것을 뒷받침하며, LSKNet을 고무하는 priors와 일치한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.