Skip to main content
QUICK REVIEW

[논문 리뷰] SCRDet: Towards More Robust Detection for Small, Cluttered and Rotated Objects

Xue Yang, Jirui Yang|arXiv (Cornell University)|2018. 11. 17.
Advanced Neural Network Applications참고 문헌 47인용 수 145
한 줄 요약

SCRDet은 작고 복잡하며 임의로 방향이 정해진 객체를 위한 다중 범주 회전 탐지기를 제시하며, 더 세밀한 샘플링을 위한 SF-Net, 감독된 주의 메커니즘을 위한 MDA-Net, 그리고 회전 객체 탐지를 개선하기 위한 IoU-향상 회전 손실을 도입한다. 원격 탐지 및 일반 데이터셋에서 최첨단 성과를 달성한다.

ABSTRACT

Object detection has been a building block in computer vision. Though considerable progress has been made, there still exist challenges for objects with small size, arbitrary direction, and dense distribution. Apart from natural images, such issues are especially pronounced for aerial images of great importance. This paper presents a novel multi-category rotation detector for small, cluttered and rotated objects, namely SCRDet. Specifically, a sampling fusion network is devised which fuses multi-layer feature with effective anchor sampling, to improve the sensitivity to small objects. Meanwhile, the supervised pixel attention network and the channel attention network are jointly explored for small and cluttered object detection by suppressing the noise and highlighting the objects feature. For more accurate rotation estimation, the IoU constant factor is added to the smooth L1 loss to address the boundary problem for the rotating bounding box. Extensive experiments on two remote sensing public datasets DOTA, NWPU VHR-10 as well as natural image datasets COCO, VOC2007 and scene text data ICDAR2015 show the state-of-the-art performance of our detector. The code and models will be available at https://github.com/DetectionTeamUCAS.

연구 동기 및 목표

  • 항공 및 자연 이미지에서 작고 복잡하며 임의로 방향이 정해진 객체의 견고한 탐지를 동기화한다.
  • 샘플링, 배경 잡음 억제, 회전 인식을 결합한 탐지기를 개발한다.
  • 제안된 기법들이 원격 탐지 및 자연 이미지 데이터셋 전반에 일반화됨을 입증한다.
  • 공개 벤치마크(DOTA, NWPU VHR-10)에서 최첨단 성능을 달성하고 COCO, VOC2007, ICDAR2015에서 경쟁력 있는 결과를 보인다.

제안 방법

  • 작은 객체를 위한 더 작은 anchor stride와 다층 피처 융합을 사용하여 더 세밀한 앵커 샘플링과 피처 융합을 가능하게 하는 SF-Net를 제안한다.
  • 픽셀 및 채널 주의에 의한 감독된 다차원 주의 네트워크(MDA-Net)를 도입하여 배경 잡음을 억제하고 전경 객체를 강조한다.
  • x, y, w, h, theta의 5-매개 회귀와 왜곡 IoU를 이용한 회전 비최대 억제(R-NMS)로 정확한 방향 바운딩 박스를 위한 회전 인식 분기을 추가한다.
  • 경계 불연속성을 해결하기 위해 회전 박스의 L1 손실에 IoU 기반 보정 요소를 통합하여 회귀 손실을 수정한다.
  • 회전된 박스 회귀, 주의 감독, 분류 손실을 결합한 다중 작업 손실로 학습한다.
  • 원격 탐지(DOTA, NWPU VHR-10)와 자연 이미지 데이터셋(COCO, VOC2007, ICDAR2015) 모두에서 일반성을 입증한다.

실험 결과

연구 질문

  • RQ1다중 범주 원격 탐지에서 작은 객체를 더 효과적으로 샘플링하고 위치를 파악하는 방법은 무엇인가?
  • RQ2감독된 주의 메커니즘이 복잡하고 잡음이 많은 배경에서 탐지 성능을 향상시킬 수 있는가?
  • RQ3IoU-향상 회전 손실이 임의 방향 바운딩 박스의 회귀를 안정화하고 향상시키는가?
  • RQ4제안된 구성 요소들이 원격 탐지之外의 자연 이미지 데이터셋에도 일반화되는가?
  • RQ5회전 및 수평 바운딩 박스에 대한 표준 벤치마크에서 SCRDet의 전반적 성능 향상은 얼마인가?

주요 결과

  • SCRDet은 DOTA의 OB B 탐지에서 제안 구성에서 mAP 72.61%로 최첨단 성능을 달성한다.
  • SCRDet은 NWPU VHR-10에서 수평 바운딩 박스 탐지에 대해 최상위 성능을 달성하며 mAP 91.75%를 기록한다.
  • ablation에서 MDA-Net은 노이즈를 억제하고 물체 신호를 강조하여 DOTA에서 최대 약 3.7p_p의 mAP 상승을 제공합니다.
  • 샤프한 샘플링과 피처 융합을 가진 SF-Net은 작은 객체에 대해 강력한 향상을 제공하며, 한 ablation에서 최종 개략적인 mAP가 68.89%로 나타난다.
  • IoU-스무딩 L1 손실은 회전 경계의 불연속성을 해결하고 탐지 정확도를 개선한다(예: ablations에서 최대 69.83% mAP).
  • 자연 이미지 데이터셋에서 SCRDet 보강 기반선(R2CNN 등)은 ICDAR2015에서 예: 80.08%의 단일 스케일 mAP 등 더 높은 성능을 보이며 이 접근법의 일반성을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.