Skip to main content
QUICK REVIEW

[논문 리뷰] ReDet: A Rotation-equivariant Detector for Aerial Object Detection

Jiaming Han, Jian Ding|arXiv (Cornell University)|2021. 03. 13.
Advanced Neural Network Applications참고 문헌 45인용 수 39
한 줄 요약

ReDet는 회전 등가 백본과 Rotation-invariant RoI Align을 도입하여 항공 물체 탐지에서 완전한 회전 불변 특징을 달성하고, 최첨단 mAP를 달성하는 한편 모델 크기를 줄였습니다.

ABSTRACT

Recently, object detection in aerial images has gained much attention in computer vision. Different from objects in natural images, aerial objects are often distributed with arbitrary orientation. Therefore, the detector requires more parameters to encode the orientation information, which are often highly redundant and inefficient. Moreover, as ordinary CNNs do not explicitly model the orientation variation, large amounts of rotation augmented data is needed to train an accurate object detector. In this paper, we propose a Rotation-equivariant Detector (ReDet) to address these issues, which explicitly encodes rotation equivariance and rotation invariance. More precisely, we incorporate rotation-equivariant networks into the detector to extract rotation-equivariant features, which can accurately predict the orientation and lead to a huge reduction of model size. Based on the rotation-equivariant features, we also present Rotation-invariant RoI Align (RiRoI Align), which adaptively extracts rotation-invariant features from equivariant features according to the orientation of RoI. Extensive experiments on several challenging aerial image datasets DOTA-v1.0, DOTA-v1.5 and HRSC2016, show that our method can achieve state-of-the-art performance on the task of aerial object detection. Compared with previous best results, our ReDet gains 1.2, 3.5 and 2.6 mAP on DOTA-v1.0, DOTA-v1.5 and HRSC2016 respectively while reducing the number of parameters by 60\% (313 Mb vs. 121 Mb). The code is available at: \url{https://github.com/csuhan/ReDet}.

연구 동기 및 목표

  • 항공 영상에서 임의의 물체 방향에 대응하도록 동기를 부여하고 해결한다.
  • 탐지기 본체(backbone)에 회전 등가 네트워크를 통합한다.
  • 완전한 회전 불변 RoI 특징을 생성하기 위한 Rotation-invariant RoI Align을 개발한다.
  • DOTA-v1.0, DOTA-v1.5, HRSC2016에서 최첨단 성능을 보여준다.
  • 기준치 대비 모델 크기와 정확도 향상을 입증한다.

제안 방법

  • N 방향 채널 전체에서 회전 등가 특징 맵을 생성하도록 ReResNet 기반 회전 등가 백본과 ReFPN을 도입한다.
  • 회전 불변 RoI 특징을 얻기 위해 공간 RoI 워핑과 방향 채널 전환 및 보간을 수행하는 RiRoI Align을 도입한다.
  • 회전된 RoI를 생성하고 RoI별 분류 및 바운딩 박스 회귀를 위해 RiRoI Align을 적용하기 위해 RoI Transformer를 사용한다.
  • 방향 바운딩 박스를 가진 항공 데이터셋에서 표준 탐지 파이프라인(RPN, RoIHead)을 사용하여 학습하고 미세 조정한다.
  • 회전 등가 설계로 인해 공유 가중치와 파라미터 수 감소를 통한 매개변수 효율성을 입증한다.
Figure 1: Illustration of our method (top) and comparisons of RRoI warping (bottom) . CNN features are not equivariant to the rotation $T_{r}$ , i.e. , feeding a rotated image to CNNs is not the same as rotating feature maps of the original image. Therefore, the corresponding RoI features are not in
Figure 1: Illustration of our method (top) and comparisons of RRoI warping (bottom) . CNN features are not equivariant to the rotation $T_{r}$ , i.e. , feeding a rotated image to CNNs is not the same as rotating feature maps of the original image. Therefore, the corresponding RoI features are not in

실험 결과

연구 질문

  • RQ1회전 등가 백본이 항공 물체 검출기에서 큰 방향 특화 파라미터의 필요성을 줄일 수 있는가?
  • RQ2Rotation-invariant RoI Align이 회전 등가 백본으로부터 방향 불변 특징을 효과적으로 추출하는가?
  • RQ3강력한 벤치마크에 비해 ReDet이 주요 항공 탐지 벤치마크(DOTA-v1.0, DOTA-v1.5, HRSC2016)에 미치는 영향은 무엇인가?
  • RQ4비회전 증강(non-rotational augmentation) 방법과 비교했을 때 ReDet이 모델 크기와 정확도 간의 균형에 어떤 영향을 미치는가?

주요 결과

  • ReDet은 DOTA-v1.0에서 80.10 mAP, DOTA-v1.5에서 76.80 mAP, HRSC2016에서 90.46 mAP를 달성하여 이전 최적 결과보다 각각 1.2, 3.5, 2.6 mAP 높이다.
  • ReDet은 약 60%의 모델 크기 감소(기준 313 Mb 대 121 Mb)를 달성하면서 경쟁력 있는 또는 우수한 성능을 제공한다.
  • RiRoI Align은 전통적인 RRoI Align보다 우수하며, l=2 방향 보간이 가장 큰 mAP 향상을 가져오며 (ablation에서 66.86 mAP).
  • 회전 등가 백본(ReResNet+ReFPN)은 매개변수가 현저히 적은 상태에서 탐지 성능을 향상시키고, 특히 C8 회전 그룹에서 두드러진다.
  • 유사한 학습 스케줄 하의 회전 증강 베이스라인과 비교할 때, ReDet은 비슷한 학습 시간으로 상당한 mAP 이득과 더 나은 매개변수 효율성을 보여준다.
Figure 2: Model size vs. accuracy (mAP) on DOTA-v1.5. We evaluate RetinaNet OBB [ 18 ] , Faster R-CNN OBB (FR) [ 27 ] , Mask R-CNN (Mask) [ 11 ] and Hybrid Task Cascade (HTC) [ 2 ] with ResNet18 (R18) and ResNet50 (R50) backbones. Note all algorithms are our re-implemented version for DOTA, which is
Figure 2: Model size vs. accuracy (mAP) on DOTA-v1.5. We evaluate RetinaNet OBB [ 18 ] , Faster R-CNN OBB (FR) [ 27 ] , Mask R-CNN (Mask) [ 11 ] and Hybrid Task Cascade (HTC) [ 2 ] with ResNet18 (R18) and ResNet50 (R50) backbones. Note all algorithms are our re-implemented version for DOTA, which is

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.